AIデイリーニュース：Kimiがマルチモーダル画像理解モデルAPIをリリース；周鴻禕氏、AI短編ドラマに出演；MiniMax-01シリーズモデルがオープンソース化；星火同時通訳音声大規模言語モデルがリリース

【AI日報】へようこそ！ここは、あなたの人工知能の世界を探求するための毎日のガイドです。毎日、AI分野のホットなコンテンツをご紹介し、開発者に焦点を当て、技術トレンドの洞察と革新的なAI製品の応用を理解するお手伝いをします。

最新のAI製品詳細はこちら:https://top.aibase.com/

1、月之暗面Kimi多モーダル画像理解モデルAPI公開

2025年1月15日、北京月之暗面科技有限公司は、新しい多モーダル画像理解モデルmoonshot-v1-vision-previewを正式に発表しました。このモデルは、既存のmoonshot-v1シリーズをベースに多モーダル能力をさらに強化し、Kimiによる世界理解の向上を目指しています。このVisionモデルは優れた画像認識能力を備え、複雑なディテールを識別し、類似したオブジェクトを区別することができます。特にOCR文字認識と画像理解においては、従来のソフトウェアを上回る精度を誇ります。

【AiBase要約:】
🖼️ Visionモデルは強力な画像認識能力を備え、複雑なディテールと類似オブジェクトを正確に区別できます。
📄 OCR文字認識と画像理解において優れた性能を発揮し、汚れた手書き文字の認識能力も従来のソフトウェアを上回ります。
💬 モデルは多様な対話とツール呼び出しなどの機能をサポートし、柔軟に使用できますが、インターネット検索はサポートしていません。

2、MiniMaxがMiniMax-01シリーズモデルをオープンソース化

MiniMaxは2025年1月15日、新しいオープンソースシリーズモデルMiniMax-01を発表しました。これには、基本的な言語モデルMiniMax-Text-01とビジュアル多モーダルモデルMiniMax-VL-01が含まれます。このシリーズは、革新的な線形アテンションメカニズムと超大規模パラメーター数により、効率的な長文処理を実現し、国際的なトップレベルのモデルと同等の性能を達成しています。

【AiBase要約:】
🧠 MiniMax-01シリーズモデルは革新的な線形アテンションメカニズムを採用し、従来のアーキテクチャの限界を打破し、最大400万トークンのコンテキスト処理をサポートします。
💡 このシリーズモデルは、複数のタスクでGPT-4oとClaude-3.5-Sonnetと同等の性能を達成しており、特に長文タスクにおいて優れた性能を発揮します。
💰 MiniMaxは、業界最低価格でテキストと多モーダル理解APIサービスを提供しており、標準価格は入力トークン1元/百万トークン、出力トークン8元/百万トークンです。
詳細リンク:https://github.com/MiniMax-AI

3、周鴻禕氏、AI短編ドラマに出演決定　AIによる特殊効果とAIハードウェアが総動員

360グループの創設者である周鴻禕氏は、中国初のAI短編ドラマへの出演を発表しました。このドラマは西安で撮影開始され、春節期間中に配信予定です。穿越をテーマにした全60話のドラマで、前向きなメッセージを伝え、陳腐なストーリーを避けることを目指しています。周鴻禕氏は、この短編ドラマを通じてAI技術を紹介し、日常生活における普及を促進するとともに、360のナノAI検索製品の開発を推進したいと考えています。

【AiBase要約:】
🌟 短編ドラマは西安で撮影開始され、春節期間中に配信予定で、テーマは穿越、全60話です。
🤖 特殊効果はナノAI検索によって生成され、撮影コストを削減し、視覚効果を高めます。
📚 AIの知識普及を目指し、誰もがAI技術を習得し、デジタルディバイドを解消することを目指しています。

4、アリババ達摩院がeコマース向け多モーダル大規模言語モデルValley2を発表

アリババ達摩院が発表したValley2は、eコマースのシナリオ向けに設計された多モーダル大規模言語モデルです。様々な分野のパフォーマンス向上と応用範囲の拡大を目指しています。このモデルは、高度なビジュアルエンコーダーと革新的な処理モジュールを組み合わせ、複数のベンチマークテストで優れた性能を示しており、多モーダル言語モデルの大きな進歩を示しています。

【AiBase要約:】
🌟 Valley2はeコマースのシナリオ向けに設計されており、Qwen2.5をバックボーンとして、SigLIP-384ビジュアルエンコーダーを組み合わせることで、多モーダル処理能力を向上させています。
📊 学習プロセスには、テキストとビジョンのアラインメントとチェーンオブスート後の学習が含まれており、複雑な問題解決におけるモデルの効率性を確保しています。
🏆 複数の公開ベンチマークテストでValley2は優れた性能を示しており、特にeコマース分野での応用において同規模のモデルを上回っています。
詳細リンク:https://www.modelscope.cn/models/bytedance-research/Valley-Eagle-7B

5、ChatGPTにスマートアシスタント機能「Tasks」登場！リマインダーとタスクをスマートに管理

OpenAIは最近、ChatGPTの新しい機能「Tasks」を発表しました。これは、ユーザーが将来の操作やリマインダーをスケジュールできるようにするもので、従来のデジタルアシスタントに近づいています。この機能は現在、Plus、Team、Proのサブスクリプションユーザーに提供されており、ユーザーはタスクと時間を簡単に入力するだけで、ChatGPTがこれらの要求を処理します。ただし、現時点では有料ユーザーのみに限定されています。

【AiBase要約:】
✅ 新機能「Tasks」により、ユーザーは将来の操作やリマインダーをスケジュールでき、ChatGPTの実用性が向上します。
🔔 ユーザーは、必要なタスクと時間を簡単にChatGPTに入力することで、日常業務を簡単に管理できます。
💼 現在、有料ユーザーのみに提供されており、無料ユーザーへの提供は不明ですが、高度な機能として提供される可能性が高いです。

6、小型テキスト音声変換モデルKokoro-TTS、TTSランキングで1位を獲得

Kokoroは新しくリリースされた音声合成モデルで、8200万パラメーターを備え、TTS分野で急速に注目を集めています。Hugging Faceプラットフォームで公開された後、わずか100時間未満のオーディオデータでランキング1位を獲得し、非常に高いコストパフォーマンスを示しました。現在、音声クローン機能に制限がありますが、そのトレーニングプロセスのコンプライアンスと効率性は、将来の発展の基盤となります。

【AiBase要約:】
🌟 Kokoro-82Mは新しくリリースされた音声合成モデルで、8200万パラメーターを備え、複数の音声パックをサポートしています。
🎤 このモデルはTTS分野で優れた性能を発揮し、ランキングで1位を獲得しました。わずか100時間未満のオーディオデータでトレーニングされました。
📊 Kokoroモデルのトレーニングにはオープンライセンスのデータが使用されており、コンプライアンスが確保されていますが、現在もいくつかの機能制限があります。
詳細リンク:https://huggingface.co/hexgrad/Kokoro-82M

7、Topview AIが世界初の製品を手に持ったデジタルアバター「Product Avatar」を発表

Topview AIが発表した「Product Avatar」デジタルヒューマンソリューションは、eコマース業界に革命的な変化をもたらします。販売者は製品画像をアップロードするだけで、AIが製品を手に持ったデジタルヒューマンを生成し、音声解説を行うため、撮影時間とコストを大幅に削減できます。この製品は、複数の言語とパーソナライズされたカスタマイズをサポートしており、eコマースマーケティングがAI駆動の新しい段階に入ったことを示しています。

【AiBase要約:】
🤖 AIデジタルヒューマンは迅速に生成でき、実在のモデルは不要なため、時間とコストを削減できます。
🌍 1000種類以上のデジタルヒューマンモデルと28種類の言語をサポートし、グローバル市場のニーズに対応します。
🎥 柔軟で効率的な製品展示方法により、販売者はいつでも製品を変更でき、プロモーション効率を向上させることができます。
詳細リンク:https://www.topview.ai/ai-product-avatar

8、NVIDIAがMetAIに400万ドルを投資　CADファイルを数分で3D空間に変換

NVIDIAは最近、AIデジタルツイン技術の開発を促進するため、スタートアップ企業MetAIに400万ドルのシードラウンド投資を行いました。MetAIは、AIと3D技術を活用してCADファイルを迅速に機能的な3D環境に変換することに重点を置いており、デジタルツインの作成時間を大幅に短縮します。同社は2025年に米国に本社を移転し、研究開発チームを拡大して、増加する市場需要に対応する予定です。

【AiBase要約:】
🌟 NVIDIAはスタートアップ企業MetAIに400万ドルを投資し、AIデジタルツイン技術の開発を促進しています。
🤖 MetAIはAIと3D技術を使用してCADファイルを迅速に機能的な3D環境に変換し、デジタルツインの作成時間を短縮します。
🚀 MetAIは2025年に米国に本社を移転し、研究開発チームを拡大して、増加する市場需要に対応する予定です。

9、iFLYTEK星火4.0Turbo、7つのコア機能をアップグレード：数学、コーディング能力がGPT-4oを凌駕

iFLYTEK星火4.0Turboの全面的なアップグレードは、中国科学技術大学が人工知能分野で達成した新たな大きな飛躍を示しています。今回のアップグレードでは、テキスト生成、言語理解など7つのコア機能が大幅に向上しただけでなく、数学とコーディング能力においてGPT-4oを凌駕し、特に複雑な数学問題の処理において優れた能力を発揮しています。

【AiBase要約:】
🔢 数学能力が大幅に向上し、GPT-4oを上回り、複雑な数学問題を処理できます。
💻 新しく発表された星火深層推論モデルX1は、1750億のパラメーターを備え、深層データ分析に適しています。
📈 中国科学技術大学は2020年以降、累計125億元を研究開発に投資し、AI技術の継続的な発展を支援しています。

10、Gemini AIがビジュアル処理で新たなブレークスルーを実現：リアルタイムビデオと静止画像の同時分析

GoogleのGemini AIは最近、ビジュアル処理分野で重要なブレークスルーを達成し、リアルタイムビデオと静止画像を同時に処理できるようになりました。この技術は、実験的なアプリケーションAnyChatで公開されており、人工知能におけるマルチストリーム処理の進歩を示しています。開発者はGeminiのアーキテクチャを使用してカスタムプラットフォームを作成し、教育、芸術など複数の分野に適用でき、幅広い応用可能性を示しています。

【AiBase要約:】
🌟 Gemini AIはリアルタイムビデオと静止画像の同時処理を実現し、従来の制限を打破しました。
🎨 AnyChatプラットフォームは、教育、芸術などの分野におけるAIの幅広い応用可能性を示しています。
🚀 開発者は、Geminiの技術を使用して独自のビジュアルAIアプリケーションを簡単に構築できます。
詳細リンク:https://huggingface.co/spaces/akhaliq/anychat

11、科大訊飛星火同時通訳音声大規模モデル発表：人間の専門家レベルの翻訳を実現

科大訊飛は本日、星火同時通訳音声大規模モデルを発表しました。これは、エンドツーエンドの同時通訳機能を備えた中国初のモデルです。この技術の発表により、翻訳の流暢さと正確性が大幅に向上し、特に国際交流の場で優れた性能を発揮します。このモデルは、複数の言語の同時翻訳をサポートし、応答時間は5秒以内と短縮され、人間の専門家レベルの翻訳を実現し、将来の国際交流の利便性と効率性を示唆しています。

【AiBase要約:】
🚀 星火同時通訳音声大規模モデルは、エンドツーエンドの同時通訳機能を備えた中国初のモデルであり、翻訳効果を大幅に向上させています。
🌍 このモデルは英中翻訳においてほぼ遅延なく翻訳でき、国際展示会や観光などの場面での使用に適しています。
⚡ ストリーミング翻訳と適応的な速度調整をサポートし、翻訳の自然さと流暢さが大幅に向上し、国際的な同等の技術を上回っています。

12、OpenBMBがマルチモーダルモデルMiniCPM-o2.6を発表：スマートフォンでもビジュアルと音声処理が可能に

OpenBMBが発表したMiniCPM-o2.6は、80億パラメーターを備えたマルチモーダルモデルで、高い計算リソースの需要とエッジデバイスとの互換性の課題に取り組んでいます。このモデルは、ビジュアル、音声、言語処理において優れた性能を発揮し、スマートフォンやタブレットで効率的に動作します。モジュール式設計により、MiniCPM-o2.6は複数の強力なコンポーネントを統合し、リアルタイム処理と多言語機能をサポートしています。

【AiBase要約:】
🌟 MiniCPM-o2.6は、80億パラメーターを備えたマルチモーダルモデルで、エッジデバイスで効率的に動作し、ビジュアル、音声、言語処理をサポートします。
🚀 このモデルはOpenCompassベンチマークテストで優れた性能を示しており、ビジョンのタスクではGPT-4Vを上回り、多言語処理能力も備えています。

AIデイリーニュース：Kimiがマルチモーダル画像理解モデルAPIをリリース；周鴻禕氏、AI短編ドラマに出演；MiniMax-01シリーズモデルがオープンソース化；星火同時通訳音声大規模言語モデルがリリース

関連推奨

評価再び高止まり：月の裏面 Kimi がARR 3億ドルの高速成長期に入り

商業化の道が見えてきた：月の暗面の黄震昕がKimiの差別化戦略を解説

中国の大規模モデルの進化：Kimiは世界トップクラスを狙う。次世代のK3が目前

Kimi Work に大きなアップグレードを実施：ターゲットモードをリリースし、外部アプリケーションのプラグインと統合

月の暗面KimiがAIナイーブカードを発行し、統合された計算能力サービスを提供