最近、YuanLab.ai チームはソース Yuan3.0Flash というマルチモーダルベースの大規模モデルの公開を正式に発表しました。このモデルのオープンソース化により、AI分野に新たな機会がもたらされます。このモデルには16ビットと4ビットのモデル重みが含まれており、詳細な技術報告書やトレーニング方法も提供されており、コミュニティによる再開発や業界向けカスタマイズをサポートし、AI技術の普及を大幅に促進します。

image.png

Yuan3.0Flash のパラメータ規模は40Bであり、革新的なスパース混合エキスパート(MoE)アーキテクチャを採用しています。推論プロセスでは約3.7Bのパラメータのみがアクティブになります。この設計は推論の精度を向上させるとともに、計算リソースの消費を大幅に削減し、「少ない計算リソースで高い知能」という理念を体現しています。さらに、強化学習トレーニング法(RAPO)を導入し、リフレクション抑制報酬メカニズム(RIRM)を通じて、無駄なリフレクションを効果的に減少させ、性能をさらに向上させています。

モデル構造において、Yuan3.0Flash は視覚エンコーダー、言語メインネットワーク、マルチモーダルアライメントモジュールから構成されています。言語メインネットワークは局所フィルタ増強型Attention構造(LFA)と混合エキスパート構造(MoE)を採用しており、注目精度を維持しつつ、トレーニングおよび推論プロセスにおける計算リソースの消費を顕著に削減しています。視覚エンコーダーは視覚信号をtokenに変換し、言語tokenとともに入力することで、効率的なクロスモーダル特徴アライメントを実現します。

実際の応用において、Yuan3.0Flash は企業シナリオにおいてGPT-5.1をすでに超え、特にRAG(ChatRAG)、マルチモーダル検索(Docmatix)、マルチモーダルテーブル理解(MMTab)などのタスクにおいて顕著な能力優位性を示しています。マルチモーダル推論と言語推論の評価では、このモデルの精度はより大規模なモデル(例: Qwen3-VL235B-A22B(235B)、DeepSeek-R1-0528(671B))に近づいていますが、トークン消費量はそれらの1/4〜1/2にとどまり、企業にとって大規模モデルアプリケーションのコストを効果的に低下させます。

今後、ソース Yuan3.0は複数のバージョン(Flash、Pro、Ultra)をリリースする予定で、パラメータ規模は40B、200B、1Tなど、選択肢を豊富にし、AIモデルの応用可能性をさらに拡充します。

重要なポイント:

🌟 Yuan3.0Flash はオープンソースの40Bパラメータを持つマルチモーダルベースの大規模モデルで、さまざまなモデル重みと詳細な技術報告書を含んでいます。

💡 このモデルは革新的なスパース混合エキスパートアーキテクチャを採用しており、推論プロセスで計算リソースの消費を顕著に削減し、知能表現を向上させています。

🚀 企業応用において、Yuan3.0Flash はGPT-5.1をすでに超えており、優れたマルチモーダル推論能力を示し、応用コストを低下させています。