【AIデイリーレポート】へようこそ!毎日、人工知能の世界を探索するためのガイドです。毎日、AI分野の注目ニュースをお届けし、開発者に焦点を当てて、技術トレンドや革新的なAI製品の応用についてご案内します。

新鮮なAI製品クリックして詳細を確認https://app.aibase.com/zh

1. 動画生成の制御性がさらに向上!Keling 2.5 Turboモデルに「最初と最後のフレーム」機能が追加

Keling 2.5 Turboモデルのリリースにより、AI動画生成の制御性・安定性・一貫性が大幅に向上し、専門的なクリエイティブコンテンツ制作に最適なソリューションを提供しています。動的効果、テキスト応答精度、スタイル保持能力、全体的な芸術的効果においても明確な改善があり、新たに「最初と最後のフレーム」機能が導入され、クリエイターが動画の開始および終了状態をより正確に制御できるようになりました。

image.png

【AiBaseの要約:】

🚀 Keling 2.5 TurboモデルはAI動画生成の制御性と安定性を大きく向上させました。

🎨 動的効果、テキスト応答精度、スタイル保持能力において突破的な進歩を遂げています。

📽️ 「最初と最後のフレーム」機能を追加し、動画の開始および終了状態を正確に制御できるようにしました。

2. バイドゥが新原生マルチモーダル大規模モデル「文心5.0」を発表

バイドゥは2025年11月13日の「バイドゥワールド」カンファレンスで、最新の原生マルチモーダル大規模モデルである「文心5.0」を正式に発表しました。このモデルは2.4兆のパラメータを持ち、原生マルチモーダル統一モデリング技術を採用しており、テキスト、画像、音声、動画などの多様な情報を同時に理解し、生成できる能力を備えています。文心5.0はさまざまな分野で優れた性能を示しており、言語とマルチモーダルの理解能力は国際的なトップモデルと同等であり、画像と動画生成能力では世界をリードしています。ユーザーは文心アプリで機能を体験でき、開発者や企業ユーザーはバイドゥの千帆プラットフォームを通じてAPIサービスを呼び出すことができます。

image.png

【AiBaseの要約:】

🚀 文心5.0は原生マルチモーダル技術を採用し、テキスト、画像、音声、動画などの情報の理解と生成をサポートしています。

📈 权威的なベンチマークテストで、文心5.0のマルチモーダル理解能力は世界のトップモデルと同等であり、その潜在力を示しています。

🌐 ユーザーは文心アプリで新モデルを体験でき、開発者はAPIサービスを呼び出してスマートなアプリケーションの開発を推進できます。

3. 微博がVibeThinker-1.5Bをリリース:低コストAIモデルが大規模言語モデルに挑戦

微博(ウェイボ)はVibeThinker-1.5Bをリリースしました。これは150億パラメータを持つ大規模言語モデル(LLM)で、アリババのQwen2.5-Math-1.5Bに基づいて細かく調整されており、Hugging Face、GitHub、ModelScopeで無料で提供されています。サイズが小さくても数学とコードタスクにおいて優れた性能を発揮し、6,710億パラメータを持つDeepSeekのR1モデルを上回っています。後期のトレーニングコストはわずか7,800ドルで、同様のモデルに比べて非常に低コストです。VibeThinker-1.5Bは「スペクトル-信号原則」というトレーニングフレームワークを使用しており、小規模モデルでも効率的な推論能力を得ることができます。

image.png

【AiBaseの要約:】

🧠 VibeThinker-1.5Bは微博がリリースした150億パラメータのオープンソースAIモデルで、大きなモデルを上回る性能を発揮しています。

💰 このモデルの後期トレーニングコストはわずか7,800ドルで、同様のモデルよりも数十万ドルも安いです。

🔍 「スペクトル-信号原則」というトレーニングフレームワークを採用し、小規模モデルでも効率的な推論が可能になりました。

詳細リンク:https://huggingface.co/WeiboAI/VibeThinker-1.5B

4. OpenAIがGPT-5.1を発表:より速く、より正確で、「人情味」のある個別化AIアシスタント

OpenAIはGPT-5.1をリリースし、ChatGPTの柔軟性、応答速度、個別化体験を向上させる目的で設計されました。新しいモデルは言語表現、会話スタイルの適応性、感情認識において顕著な改善を遂げており、タスクに応じた適応型推論機能も導入されています。

image.png

【AiBaseの要約:】

🚀 GPT-5.1は応答速度と言語の明確さを向上させ、会話がより自然になります。

🧠 新たな適応型推論機能を搭載し、問題の複雑度に応じて処理時間を調整できます。

🎨 複数のコミュニケーションスタイルを選択できるため、ユーザーの個別化体験が強化されます。

5. 李飛飛のWorld Labsが初の商用3D世界モデルMarbleを発表:多様な入力による生成に対応

李飛飛のWorld Labsは初の商用3D世界モデルMarbleを発表しました。このモデルは、複数の入力方法によって編集可能な3D環境を生成し、AI編集機能も備えており、主流のVRデバイスと互換性があります。ゲーム開発、映画特殊効果など、さまざまな分野での利用が可能です。

image.png

【AiBaseの要約:】

🌟 Marbleは初めての商用3D世界モデルで、複数の入力方法による編集可能な環境を生成できます。

🎮 内蔵されたAI編集ツールにより、ユーザーは3Dシーンの設計やカスタマイズが簡単にできます。

🕶️ Marbleは主流のVRデバイスと互換性があるため、ユーザーはすぐに生成された3D世界を体験できます。

詳細リンク:https://marble.worldlabs.ai/

6. 東北大学が多言語翻訳の「核弾頭」NiuTrans.LMTを開発:60言語234方向をサポートし、低資源言語翻訳に大きな進展

東北大学が公開したNiuTrans.LMT大規模モデルは、多言語翻訳分野で重要な進展を遂げており、60言語、234の翻訳方向をサポートしています。特に低資源言語において大きな成果を収めています。二つの中心構造により、二次的な変調を回避し、跨文化間のインタラクションの効率と正確性を向上させています。

image.png

【AiBaseの要約:】

🧠 二つの中心構造により英語の支配を打破し、中国語と英語の両方のコア翻訳をサポートしています。

🌐 三段階の言語カバーにより効率と公平性を両立し、低資源言語の翻訳能力を向上させています。

🚀 二段階のトレーニングでFLORES-200を頂点に達成し、優れた性能を発揮しています。

詳細リンク:https://github.com/NiuTrans/LMT

7. グーグルGemini Liveの音声機能が大アップグレード!語速は自由に調整、アクセントは選べる、ChatGPTの音声モードに最大の挑戦

グーグルのGemini Live音声機能のアップグレードにより、5つの主要な能力を通じてAI対話を新たな高みに押し上げ、ユーザーにより自然で個別化されたインタラクティブな体験を提供しています。

image.png

【AiBaseの要約:】

🗣️ 語速は口令に応じてリアルタイムで変化し、個人向け言語トレーニングが可能です。

😊 感情感知により、トーンが自動的に適応し、対話体験が向上します。

🎭 アクセントを個別に適用し、対話がより面白くなります。

8. アリババが「千問」プロジェクトを秘密裏に開始:Qwenモデルを基盤にChatGPTと全面対決、C端AI未来戦争を開始

アリババは「千問」と呼ばれるプロジェクトを秘密裏に開始し、同名の個人用AIアシスタントの開発を目指しています。これはChatGPTと全面的に対決するものです。この動きは、アリババが世界中のAI応用のトップ競争に正式に参入したことを意味し、C端のAI応用を戦略的核心に位置づけています。

image.png

【AiBaseの要約:】

🚀 アリババは「千問」プロジェクトを開始し、個人用AIアシスタントを構築し、ChatGPTと全面的に対決しています。

💡 Qwenモデルの優れた性能と国際的な影響力に基づき、アリババはAI競争に勝つことを望んでいます。

📈 アリババはC端のAI応用を戦略的核心に位置づけ、消費者市場に向けて布設しています。