今日開催されたバイドゥ世界大会で、バイドゥの創設者で代表取締役会長兼CEOである李彦宏は正式に文心大モデル5.0を発表し、「統一されたネイティブマルチモーダルモデル」と定義しました。この名称は、バイドゥがマルチモーダルAI分野での技術的飛躍を宣言するだけでなく、中国製の大モデルが「テキスト、画像、音声が深く融合し、ネイティブに協調する」新しい時代に入ることを示しています。

ネイティブマルチモーダル:「組み合わせる」ではなく「共生する」

業界の主流である「マルチモーダルの組み合わせ」方式(例えば、視覚モデルで画像を認識し、言語モデルで説明を生成する)とは異なり、文心5.0は下位構造からテキスト、画像、音声の統一的な表現と共同トレーニングを実現しています。これは、モデルが「まず見る、その後考える」ではなく、「見ながら聞きながら理解する」ことができるようになることを意味します。これにより、「この写真に写っている人物の感情の変化を説明してください」や「このメロディーに合った詩を生成してください」などのマルチモーダルな複雑なタスクを自然に処理できます。李彦宏は「それには本格的な自己学習と反復能力があり、推論効率と汎化性能が顕著に向上している」と強調しました。

千帆プラットフォームが全面開放され、開発者は1クリックで呼び出し可能

今から、文心大モデル5.0は百度スマートクラウドの千帆大モデルプラットフォームにリリースされています。企業や開発者はそのマルチモーダル機能を直接呼び出して、迅速にインテリジェントカスタマーサポート、AI創作、産業品質検査、マルチモーダル検索などのアプリケーションを構築できます。百度は同時にAPIの応答速度とコスト構造を最適化し、大モデルを「使える」から「使いやすく、手軽でコストが低い」へと進化させています。

「知能こそが最大の応用」

李彦宏は演説で自身の核心的な理念を再確認しました。「以前はAIの『杀手級アプリケーション』を探していましたが、今日はそう言いたいのです。知能そのものが最大の応用です。」彼は、大モデルが単一のシナリオに限定されるべきではないと考えており、電力や水のようにオペレーティングシステム、検索、オフィス、移動などすべての製品に統合すべきだと述べました。将来、バイドゥは文心5.0を文心一言、バイドゥ検索、小度スピーカー、Apollo自動運転などの全製品に深く埋め込み、「どこにでもある知能」を実現する予定です。

戦略的意義:中国製大モデルの范式の突破

世界的な大モデルが言語能力を主戦場としている中、バイドゥは「ネイティブマルチモーダル」を突破口として選択しました。これは、純粋なテキストの競争領域を回避するだけでなく、中国産業が視覚+言語+音声の融合実装に対する急切なニーズに合致しています。例えば、スマート工場での図文作業指示書の理解、医療画像のマルチモーダル診断支援、教育現場での「図を見て話す」インタラクティブな授業などです。