テンセントは最近、新しく開発した言語モデル「**混元-A13B**」をオープンソース化することを発表しました。このモデルには、タスクの複雑さに応じて迅速な思考と深く考える「思考」の間でスマートに切り替えられる**動的推論方法**が導入されています。
主な特徴:動的推論とMoEアーキテクチャ
「混元-A13B」の核心的な利点は、**推論の深さをリアルタイムで調整する能力**です。簡単な質問に対しては、**高速モード**を起動し、最小限の推論ステップで迅速に対応します。一方、より複雑な問題には、**複数のステップで考えることのできる深層的な推論プロセス**を起動できます。ユーザーは特定のコマンドを使って手動でこの動作を制御でき、「**/think**」で深層モードを有効にし、「**/no_think**」で無効にすることができます。
このモデルは、**混合エキスパート(MoE)アーキテクチャ**を採用しており、全体のパラメータ数は**800億**ですが、実際の推論では**130億のパラメータ**のみがアクティブになります。これにより、実行効率が向上します。また、「混元-A13B」は最大で**256,000トークンのコンテキストウィンドウ**をサポートし、長文処理の能力が大幅に強化されています。
トレーニングデータと性能表現
テンセントが公開した技術報告書によると、「混元-A13B」は**20兆のトークン**でトレーニングされており、推論タスクおよび広範囲な用途に最適化されています。科学的なタスクにおける信頼性を高めるために、テンセントは特に**STEM(科学、技術、工学、数学)分野**から**2500億のトークン**を収集してトレーニングを行いました。そのデータには、数学の教科書や試験、GitHubのオープンソースコード、論理パズル、大学レベルの科学テキストなどが含まれています。
テンセントは、「**混元-A13B-Instruct**」バージョンがOpenAI、Deepseek、アリババのQwenなどの先進モデルと同等であると述べています。報告書によると、**2024年のアメリカ数学競技会AIME**において、「混元-A13B」の正確度は**87.3%**であり、OpenAI o1の74.3%を上回っています。