【AI日報】へようこそ!ここが毎日、人工知能の世界を探索するためのガイドです。毎日、AI分野の注目ニュースをお届けし、開発者に焦点を当て、技術トレンドや革新的なAI製品の応用について理解を深めていただきます。
新鮮なAI製品クリックして詳細を見る:https://app.aibase.com/zh
1. カーリーAIが「主体庫」をリリース:モデルは記憶機能を持ち、役割「顔を変えない」
カーリーAIは「主体庫」というものを発表しました。これはO1マルチモーダルビデオモデルに長期記憶機能を追加し、役割の一貫性を96%以上に保つことを可能にし、AIによる顔の変化問題を完全に解消します。ユーザーは単一の役割画像をアップロードすることで、3Dビュー補完や多光線バリアントを生成し、シーン間でワンクリックで呼び出すことが可能です。

【AiBase要約:】
✨ 主体庫の3段階プロセス:アップロード、補完、呼び出し、役割の一貫性を向上
🎨 AIのスマート説明機能、キーワードを自動抽出し、生成成功率を向上
🚀 主体庫とO1モデルの統一インターフェースにより、テキスト・画像・動画のシームレスな連携を実現
2. 開口即座に役割になる!アリババQwen3-TTS登場:49種類の音声 + 10言語9方言、WERは主流商用モデルを上回る
アリババがQwen3-TTSをリリースしました。このモデルはゼロサンプル、多役割、多言語の特徴を持ち、主流商用エンジンよりも優れた性能を持っています。教育、ライブ配信、カスタマーサービスなど様々な場面で利用可能です。

【AiBase要約:】
🎧 49種類の高品質な音声、さまざまなシーンに対応
🌐 10言語と9種類の中国の方言をサポート
📉 WERは主流商用モデルを大幅に上回ります
詳細リンク:https://modelscope.cn/studios/Qwen/Qwen3-TTS-Demo
3. 406Bパラメータが登場!騰訊の混元2.0が内側テストを開始、推論性能は「国内第一梯队」を自認
騰訊が新世代の自社開発大規模モデル「混元2.0」をリリースしました。Think版とInstruct版の2つのバージョンがあり、強力な推論能力と指示に従う能力を備えています。数学、科学、コードなどの複雑なタスクにおいて優れたパフォーマンスを示し、すでに騰訊クラウドAPIおよび一部のアプリケーションにリリースされています。

【AiBase要約:】
🧠 混元2.0はMoEアーキテクチャを採用し、推論速度を40%向上させました。
📊 Think版はIMOおよびハーバード・ミシガン競技でそれぞれ83.1%と81.7%の正確率を達成しました。
💰 腾讯云APIの価格はGPT-4oの45%であり、企業向けのプライベート配置にも対応しています。
4. 美團が大規模な画像生成モデルLongCat-Imageをオープンソース公開、中国語文字生成と画像編集がSOTA水準に達す
美團のLongCatチームがリリースしたLongCat-Image画像生成モデルは、6Bパラメータ規模で高性能と低门槛を組み合わせ、特に中国語文字生成と画像編集において優れた性能を示し、オープンソースSOTA水準に達しています。このモデルは体系的なトレーニング戦略とデータ工学を通じて、多様な指示下でも効率的かつ正確な性能を維持しています。さらに、LongCatチームはオープンソースを通じて透明性と開放性、協働を重視したエコシステム構築を目指し、開発者のモデル使用と共同構築を促進しています。

【AiBase要約:】
🧠 LongCat-Imageモデルは画像編集分野でオープンソースSOTA水準に達しており、強い指示遵守と視覚的一貫性能力を示しています。
🖋️ モデルは中国語文字生成を最適化しており、複雑な筆画構造を持つ漢字のレンダリングをサポートし、さまざまなシーンに対応できます。
🎨 LongCatチームはオープンソースを通じて透明性と開放性、協働を重視したエコシステム構築を目指し、開発者のモデル使用と共同構築を促進しています。
詳細リンク:https://longcat.ai/
5. 京东雲JoyBuilderがGR00T N1.5千カール訓練をサポート、具身型インテリジェンスのスケーラブルな導入を牽引
京东雲のJoyBuilderプラットフォームは、フルスタックの最適化を通じて、GR00T N1.5千カールレベルの訓練を成功裏にサポートし、訓練効率を3.5倍に向上させ、具身型インテリジェンスのスケーラブルな導入を推進しています。

【AiBase要約:】
🧠 京东雲JoyBuilderプラットフォームは重要なアップグレードを行い、GR00T N1.5千カールレベルの訓練を成功裏にサポートしました。
🚀 プラットフォームは訓練効率を3.5倍に向上させ、具身型インテリジェンスのスケーラブルな導入を著しく加速しました。
🌐 最新のLeRobotトレーニングデータプロトコルをサポートし、業界のリーダーシップを確立しています。
6. インテルの4Bモデルが逆転勝利!単一タスクコストはGPT-5 Proの1/36
インテルの4BモデルNVARCは、最新のARC-AGI2評価で27.64%という優れた結果を達成し、GPT-5Proを打ち勝ちました。NVARCはイノベーティブなゼロプレトレーニング方法と合成データ生成戦略を採用し、モデルの適応力と効率を大幅に向上させました。

【AiBase要約:】
🧠 NVARCはゼロプレトレーニングの深層学習方法を採用し、伝統的な大規模データセットの領域バイアスやデータ依存問題を回避しています。
💡 NVARCはGPT-OSS-120Bを使用して高品質な合成クイズを生成し、リアルタイム計算リソースの需要を低下させています。
🚀 NVARCのTTFT技術により、新しいタスクルールに迅速に適応でき、モデル効率を向上させています。
7. 微博CEOがAIスマホの自主的に微博を投稿できる機能についてコメント
微博CEOの王高飛は、豆包AIスマホが自主的に微博を投稿できる機能についてコメントしました。彼はその機能が既に存在しているものの、ユーザーの確認が必要であると述べました。また、豆包AIスマホは主流アプリでログイン問題に直面しており、AI操作能力に関する議論を引き起こしました。王高飛は、一部のゲーム系アプリではAI制御を検出できるため、AIアシスタントの使用が制限されていると述べました。

【AiBase要約:】
🤖 微博CEOの王高飛は、AIスマホが独自に微博を投稿できるかどうかはまだ確認中だが、関連能力はすでに存在していると述べました。
📱 豆包AIスマホは主流アプリでログイン制限に直面しており、AI操作能力に対する議論を引き起こしています。
⚙️ 現時点では、一部のアプリに対してAIアシスタントは手動操作が必要であり、技術発展の課題と未来の挑戦を示しています。
8. マイクロソフトがVibeVoice-Realtimeをリリース:リアルタイムテキストから音声への変換新モデル、インタラクティブなアプリケーションを支援
マイクロソフトが新たにリリースしたVibeVoice-Realtime-0.5Bモデルは、軽量なリアルタイムテキストから音声への変換(TTS)システムで、ストリーム入力と長文出力をサポートしています。このモデルは300ミリ秒以内に音声生成を開始でき、代理アプリケーションやリアルタイムデータの話す用途に適しています。交差窓設計を採用し、遅延を最適化し、音声合成の品質を向上させ、LibriSpeechテストで2.00%の文字誤り率を達成し、優れた性能を示しています。

【AiBase要約:】
🌟 ストリームテキスト入力に対応し、300ミリ秒以内に音声出力を開始し、リアルタイムインタラクティブアプリに適しています。
🛠️ 低遅延の音声マークアップを使用し、7.5ヘルツの速度で音声特徴を生成し、長文音声合成を最適化しています。
📈 LibriSpeechテストでVibeVoice-Realtimeの文字誤り率は2.00%であり、優れた性能を示し、さまざまな应用场景に適しています。
詳細リンク:https://huggingface.co/microsoft/VibeVoice-Realtime-0.5B
