今日は、Ling-mini-2.0アーキテクチャを基盤として深く最適化された高性能な推論用MoEモデルであるRing-mini-2.0を正式にリリースしました。Ring-mini-2.0の総パラメータ数は16Bですが、実際の動作では1.4Bのパラメータのみをアクティブ化することで、10B以下の密集型モデルと同等の推論能力を達成できます。

このモデルは論理的推論、プログラミング、数学のタスクにおいて特に優れた性能を発揮し、128Kの長い文脈をサポートしています。これにより、さまざまなシナリオで強力な能力を発揮します。さらに、Ring-mini-2.0の生成速度も非常に速く、300+ token/s以上の高速生成が可能であり、最適化後には500+ token/sを超えることも可能です。

大モデル メタバース (1)

図の出典:AI生成画像、画像ライセンス提供元Midjourney

推論能力の向上に関して、Ring-mini-2.0はLing-mini-2.0-baseの基礎の上でのより深いトレーニングを行っており、Long-COT SFT、大規模なRLVRおよびRLHFの統合的な最適化を通じて、複雑な推論タスクにおける安定性と汎化能力を大幅に向上させました。いくつかの高難度のベンチマークテストで、その性能は10B以下の密集型モデルを大きく上回り、一部のより大きなMoEモデルと比較しても優れていることがわかりました。特に論理的推論において優れた性能を示しています。

また、Ring-mini-2.0は効率性にも注力しており、1/32のエキスパート活性化比とMTPレイヤーのアーキテクチャ最適化によって、約7-8Bの密集型モデルと同等の性能を実現しています。このような高いスパース性と小さなアクティベーション設計により、H20環境下で300+ token/s以上の推論速度が可能となり、さらにExpert Dual Streamingの最適化を組み合わせることで、推論コストをさらに削減することができます。

学術界や産業界での研究および応用を促進するために、Ring-mini-2.0のモデルウェイト、トレーニング戦略、データレシピはすべてオープンソースで公開されます。この「小さくて優れた」モデルが小型の推論モデルの第一選択肢となることを期待しており、皆様にお手伝いいただけるよう、私たちのオープンソースリポジトリをご訪問いただき、ダウンロードおよび使用していただければ幸いです。今後、Ling2.0アーキテクチャの支援のもと、より巨大で高速で強力な言語モデルや全モーダルモデルを次々とリリースしていく予定です。お楽しみに!