アリババ・バイリン大規模モデルチームは近日、新たな効率的な思考モデルであるRing-flash-linear-2.0とRing-mini-linear-2.0のオープンソースを正式に発表しました。これらのモデルは、深い推論効率を向上させるために設計されており、同時に2つの独自開発された高性能な統合演算子、FP8統合演算子および線形Attention推論統合演算子も公開されました。これらは「大規模パラメータ、低活性化」の効率的な推論と超長文脈のサポートを実現することを目的としています。
チームによると、アーキテクチャの最適化と高性能演算子の協働により、これらの新しいモデルは深い推論シナリオにおいて、同等規模の密接モデルのコストの10分の1にとどまっています。また、以前のRingシリーズと比較して、推論コストは50%以上削減されています。これは、ユーザーが複雑な推論を行う際に計算リソースの消費を大幅に削減し、作業効率を向上させることを意味しています。
新モデルの利点はコスト削減だけでなく、トレーニングおよび推論エンジンの演算子の高い一致にもあります。この一致により、モデルは強化学習の段階で長期的で安定的かつ効率的な最適化が可能となり、これらのモデルはさまざまな高難度の推論ランキングで継続的に最高の性能(SOTA)を維持しています。これは、複雑な推論タスクを行うユーザーにとってより強力なツールを提供するものです。
オープンソースプロジェクトとして、Ring-flash-linear-2.0とRing-mini-linear-2.0はHugging FaceやModelScopeなどの複数のプラットフォームで公開されています。これにより、開発者はこれらのプラットフォームで詳細情報を取得し、試してみることができます。
今回のオープンソースによって、アリババ・バイリン大規模モデルチームはAI分野における技術力を示すとともに、広範な開発者にさらに効率的なツールを提供し、今後のAI開発および研究でより大きな突破を遂げる支援を行っています。
