5月21日、腾讯はその「混元(ホンユエン)」大規模モデルの全体的なアップデートを発表し、同社の人工知能分野における技術能力が引き続き向上していることを示しました。今回のアップデートでは、旗艦となる高速思考モデル「混元TurboS」や深い思考モデル「混元T1」の改良に加え、「TurboS」ベースで新たにリリースされた視覚的深層推論モデル「T1-Vision」とエンドツーエンドの音声通話モデル「混元Voice」が含まれています。さらに、腾讯は「混元画像2.0」「混元3D v2.5」「混元ゲーム視覚生成」などの一連のマルチモーダルモデルも同時に更新しました。
グローバルで広く認められている大言語モデル評価プラットフォームである「Chatbot Arena」において、混元TurboSは世界ランキングでトップ8入りし、中国ではDeepSeekに次ぐ位置にランクインしました。この成果は、事前学習段階でのトークン強化と、後学習段階で導入された長短思考チェーン融合技術により達成されました。これにより、TurboSは理科の推論力、コード能力、コンテスト数学の成績が大幅に向上しました。今年初めにリリースされた業界初の大規模なハイブリッドMamba-MoEモデルである混元TurboSは、既に効果とパフォーマンスにおいて顕著な優位性を示しています。
深層思考モデル「混元T1」は年初にリリースされて以来、急速に改善を続けており、最近も新たなアップデートが実施され、競技数学、一般的な質問応答、複雑なタスクに対するエージェント能力が向上しました。さらに、混元は「TurboS」ベースモデルに基づき、画像や音声などマルチモーダルな理解能力を拡張しました。「T1-Vision」は複数の画像入力をサポートし、独自の思考チェーンを持ち、「見ながら考える」ことが容易に行えます。従来のカスケード方式に比べて全体的な効果と理解速度が大幅に向上しました。「混元Voice」は低遅延の音声通話に対応し、応答速度は30%以上向上し、自然さや感情表現の能力も明らかに向上しており、現在は腾讯元宝アプリでグレイスフルリリースされています。
マルチモーダル生成分野では、「混元画像2.0」が「ミリ秒級」の画像生成を実現し、GenEval基準での正確率は95%を超え、主観的な画質と美学に関する人間による評価でも優れた結果を示しました。「混元3D v2.5」は業界初のスパース3Dネイティブアーキテクチャを採用し、制御性と超高精細生成能力に革命を起こしました。幾何学モデルの精度は10倍向上し、テクスチャマッピングは4Kに達しました。エンドツーエンドの評価において、混元の文から3D、画像から3D生成ともに優れた成果を収めています。
ゲーム分野では、スキルエフェクト生成、キャラクター動的なイラスト生成、リアルタイムインタラクティブゲームワールドモデル、キャラクター多視点などを含む5つのサブモデルを持つ「混元ゲーム視覚生成モデル」をリリースしました。また、「混元ゲーム視覚生成プラットフォーム」も正式に稼働し、工業級ゲーム資産生成を可能にし、ゲーム美術デザインの効率を数十倍に高めました。近々、混元は初めての大規模かつロビーサポート可能な3Dシーン生成モデルをリリースし、没入型インタラクション、多様なスタイルのシーン生成、360度パノラマロビーエクスペリエンスをサポートし、ゲームや具象知能などの業界革新を支援します。
腾讯雲副総裁で腾讯混元大規模モデル技術責任者の王迪氏は述べました。「混元はより深いと広い方向へと進化を続け、AIの普及と産業のアップグレードを支える堅固な基盤を提供しています。混元はオープンソースに積極的に取り組み、さまざまなサイズやシナリオに対応する全系列モデルのオープンソース化を進めています。現在、混元は画像、ビデオ、3D、テキストなどを含む全モダリティでオープンソース化が実現され、Hugging Faceでの「混元3D」モデルのダウンロード数は160万を超えています。将来、混元は企業や端末向けに適応した多サイズのハイブリッド推論モデルをリリースし、画像、ビデオ、3Dなどのマルチモーダル基礎モデルとそれに付随するプラグインモデルのさらなるオープンソース化を続けていく予定です。」