AI日報：リアルタイム世界モデルPixVerse R1がリリース；ViduがAIでワンクリックでMVを作成する機能を発表；Kaleido AIのARRは2億4000万ドルに

【AI日報】へようこそ！ここは毎日あなたが人工知能の世界を探索するためのガイドです。毎日、AI分野の注目ニュースをお届けし、開発者に焦点を当てて技術トレンドや革新的なAI製品の応用方法を理解するお手伝いをします。

新規のAI製品クリックして詳細を確認：https://app.aibase.com/zh

1. アイシャー科技が世界初の汎用リアルタイム世界モデル「PixVerse R1」を発表、最高画質1080P

アイシャー科技は世界初の汎用リアルタイム世界モデル「PixVerse R1」を発表しました。このモデルは3つの主要なテクノロジーにより、仮想世界でのリアルタイムインタラクション体験を実現し、ゲーム、映画、ライブ配信などの分野で「誰もがコラボレーションできる」新しい可能性を開きます。

【AiBase要約:】
🧠 Omniネイティブマルチモーダルモデルは現実世界の「計算基盤」として、マルチモーダルコンテンツを連続したトークンストリームに統合し、物理的論理と一致するデジタル世界を生成します。
🔄 自回帰ストリーミング生成メカニズムにより、長時間のコンテンツの一貫性問題を解決し、「ストリーミングインタラクション」を実現します。
⚡ 瞬時の応答エンジン IREにより、計算効率を向上させ、「即時応答」のコア体験を支えます。

2. ViduがAIワンタッチでMVを生成する機能をリリース、ミナット単位の「バーチャルプロダクションスタジオ」を構築

ViduはAIワンタッチでMVを生成する機能をリリースし、ビデオ制作が完全自動のエンドツーエンド生成時代に入ったことを示しています。ユーザーは背景音楽、参照画像、テキスト指示を提供するだけで、数分以内に高品質なMVを出力できます。この機能は多エージェントシステムによって全工程の自動化を実現し、専門的なビデオ制作の障壁を大幅に低くし、クリエイターに統合されたバーチャルプロダクションスタジオの体験を提供します。

【AiBase要約:】
🎬 全自動多エージェント協調：システム内には演出家、シナリオ、視覚生成および編集の4つのスマートエージェントが含まれており、音楽の解析から完成品の出力までを自動化します。
🖼️ インダストリー級のスタイル一貫性：最大7枚の参照画像を指定することで、5分間の動画においてキャラクターやシーンのスタイルがずれることなく保たれます。
🎵 音画同期の正確なタイミング：AIは背景音楽のリズムを自動的に認識し、転換を完了し、フレームごとの同期の動的字幕を生成します。数分で完成品を出せます。

3. プログラミングエージェントの新たな基準！MiniMaxがOctoCodingBenchベンチマークを発表

本記事では、MiniMax社が公開したオープンソースベンチマーク「OctoCodingBench」について紹介します。このベンチマークは、プログラミングエージェントがコードリポジトリ環境で命令を遵守する能力を評価することを目的としています。このベンチマークは、7種類の異なる命令源に対する遵守度をテストし、多次元的な評価フレームワークを提供します。また、二進チェックリストのスコアリングメカニズムを採用しており、評価結果をより正確にしています。さらに、OctoCodingBenchはClaude Code、Kilo、Droidなど、実際の生産環境で使用されるツールをサポートしています。

【AiBase要約:】
🧠 プログラミングエージェントの命令遵守能力の評価
📊 多次元的な評価フレームワークの提供
🔧 複数のスケルトン環境のサポート
詳細リンク: https://huggingface.co/datasets/MiniMaxAI/OctoCodingBench

4. 快手が可霊AIのARRが2億4000万ドルに達成、12月の収入が2000万ドルを突破

快手科技は、2025年12月に可霊AIが単月収入が2000万ドルを突破し、年間運行収入（ARR）が2億4000万ドルに達したと発表しました。これは、生成型AI市場における強力な成長を示しています。

【AiBase要約:】
🚀 可霊AIの月収が2000万ドルを突破し、年間運行収入（ARR）が2億4000万ドルに達しました。
🛠️ 技術的な密接なイテレーションを行い、複数のモデルをリリースし、専門的な創作効率を向上させました。
🌍 6000万以上のユーザーをサービスしており、商業化の展開は複数の分野に及びます。

5. 国産コンピューティング+自主的なアーキテクチャ！智譜が华为と共同でGLM-Imageをオープンソース化、最初のマルチモーダルSOTAモデルが昇騰チップで全フローを実行

智譜AIと华为は共同でGLM-Imageをオープンソース化しました。このモデルは性能面で国際的に先駆けており、世界初の国内AIチップに基づくマルチモーダル大規模モデルの全フロー記録を達成しました。自回帰＋拡散デコーダーの混合アーキテクチャを採用し、画像とテキストの意味の深い対応と共同推論を実現し、AIGCを「ピクセルの積み重ね」から「意味駆動」に進化させます。

【AiBase要約:】
🧠 自回帰＋拡散デコーダーの混合アーキテクチャにより、画像とテキストの意味の深い対応と共同推論を実現しました。
🚀 全フローが国内AIチップで実行され、国外GPUへの依存を脱しました。
🌐 AIGCを「ピクセルの積み重ね」から「意味駆動」へと進化させました。
詳細リンク: https://github.com/zai-org/GLM-Image

6. グローバル初の医療大モデルBaichuan-M3登場：GPT-5.2を上回る実力、見逃せない！

中国製の医療大モデルBaichuan-M3が正式リリースされ、グローバルで最も強力な医療AIシステムとなりました。このモデルは百川インテリジェントが開発し、医療シーンに特化した応用を重視しており、膨大な医学文献、臨床ガイド、実際の症例、薬品知識ベースなどを統合し、驚くべき知能医療能力を示しています。Baichuan-M3のパラメータは2350億に達し、その主な利点は非常に低い幻覚率であり、医療問診や薬の提案において、高い正確さに加えて誤った情報の発生を効果的に防ぐことができます。評価結果によると、このモデルは問診能力和医療の正確性においてOpenAIのGPT-5.2を上回り、すべての評価項目で人間の医師よりも優れています。百川インテリジェントの創業者王小川氏は、Baichuan-M3のリリースが医療AIエコシステムの共創を推進すると述べました。このモデルのオープンソース戦略は、さらなる開発者による医療AIの革新を促進し、地方医療、補助診断、健康管理などの場面での実装を目指しています。現在、Baichuan-M3は百小応プラットフォーム上で利用可能となっており、ユーザーはこのプラットフォームを通じて薬の指導やその他の医療関連の助けを得ることができます。この革新は患者にとってより使いやすい医療相談の手段を提供し、医師の仕事にも強い支援となります。医療AI技術の発展とともに、このようなモデルが医療分野でより多く使われるようになり、将来的には医療サービスの質と効率をさらに向上させ、多くの人々に恩恵をもたらすことが期待されます。

【AiBase要約:】
🧠 Baichuan-M3医療大モデルは2350億のパラメータを持ち、超低幻覚率により、医療問診と薬の提案の正確性を確保しています。
🏥 問診能力と医療の正確性において、Baichuan-M3はGPT-5.2を上回り、人間の医師よりも優れています。
🌐 百川インテリジェントのオープンソース戦略は、開発者による医療AIの革新を促進し、医療AIエコシステムの共創を推進します。

7. グーグルがショッピングの未来を再構築：エージェンティックAIショッピングシステムをリリース、Gemini CX + UCPプロトコルで「検索即購入」を実現

グーグルはエージェンティックAIショッピングシステムをリリースし、Gemini CXとUCPプロトコルを組み合わせて、検索から購入に至るまでのシームレスな体験を実現し、ECの未来を再構築します。

【AiBase要約:】
✅ エージェンティックECソリューションを提供し、UCPプロトコルとGemini CXシステムを含め、ワンストップのショッピングエコシステムを構築します。
💡 グーグルの検索で直接買い物を完了でき、ページ遷移なし。
🌐 UCPプロトコルはAIエージェント、販売者、ECプラットフォーム間に標準化された通信の橋渡しをし、既存の業界基準に適合しています。

8. グーグルが医療AIオープンソース生態系に追加投資：MedGemma 1.5が医療画像能力を強化し、同時に音声認識モデルMedASRをリリース

グーグルは新しいオープンソース医療大モデルMedGemma 1.5と音声認識モデルMedASRをリリースし、医療分野における技術スタックをさらに整備しました。MedGemma 1.5は医療画像の理解と分析能力を強化し、純テキストのQ&Aツールからマルチモーダルの臨床意思決定支援システムへと進化しました。MedASRは医療音声のシーンに特化し、電子カルテの作成効率を向上させます。これらのモデルは匿名化された臨床データに基づいて訓練され、オープンソース形式で公開され、世界中の研究者と開発者が利用できます。

【AiBase要約:】
🧠 MedGemma 1.5は医療画像の理解と分析能力を強化し、マルチモーダルの臨床意思決定支援システムをサポートします。
🗣️ MedASRは医療音声認識を最適化し、電子カルテの作成効率を向上させます。
🔒 グーグルのオープンソースモデルはプライバシー保護規範に従っており、医療の基層と研究におけるAIの応用を推進します。

AI日報：リアルタイム世界モデルPixVerse R1がリリース；ViduがAIでワンクリックでMVを作成する機能を発表；Kaleido AIのARRは2億4000万ドルに

関連推奨

バイチュン・ボルカノ・エンジン2026カンファレンスで注目発表：Seedance2.5により30秒動画を直接生成、豆包2.1 ProがOpus4.6と対抗

豆包大モデルの1日当たりのトークン使用量が180兆を突破、2.1Proバージョンが正式リリース

強力な提携：マクロン・テクノロジーがアンソニップに参画し、次世代AIインフラを共に構築

ビットマスクの豆包がSeed 2.1シリーズを発表：コーディングおよびエージェント機能の3つの指標がGPT-5.5に匹敵

医療AIの新天地：百川スマートがM4モデルを発表、実際の医師のように積極的な質問を実現