アリババの百靈大規模モデルチームは最近、新しく効率的な推論モデル「Ring-mini-sparse-2.0-exp」をオープンソース化したことを発表しました。このモデルはLing2.0アーキテクチャに基づいており、長文のデコード処理に最適化されており、画期的なスパース注目メカニズムが採用されています。
この新しいアーキテクチャでは、高スパース比のMixture of Expert(MoE)構造とスパース注目メカニズムが統合され、複雑な長文の推論シナリオでの性能向上が目的としています。

チームによると、アーキテクチャと推論フレームワークの深い協調最適化により、Ring-mini-sparse-2.0-expは長文を処理する際のスループットが、前モデルであるRing-mini-2.0に比べて約3倍向上しています。
複数の高難度の推論ベンチマークテストにおいても、このモデルは継続的にSOTA(State of the Art)性能を維持しており、優れた文脈処理能力と効率的な推論能力を示しており、オープンソースコミュニティに対して新たな軽量なソリューションを提供しています。
Ling2.0Sparseアーキテクチャは、大規模言語モデルの今後の発展における2つの主要なトレンド、すなわち文脈長の拡張とテスト時の拡張に対処することを目的としています。チームはMixture of Block Attention(MoBA)の設計思想を参考にし、ブロック単位のスパース注目(block-wise sparse attention)を採用し、入力されたKeyとValueをブロックに分割し、各queryはhead次元でtop-kブロックを選択します。
softmax計算は選ばれたブロックのみで行われるため、計算コストは大幅に削減されます。さらに、チームはMoBAデザインとGrouped Query Attention(GQA)を組み合わせ、同じグループ内のquery headがtop-kブロック選択結果を共有することで、I/Oコストを削減しています。
GitHub:https://github.com/inclusionAI/Ring-V2/tree/main/moba
ポイント:
🌟 新しいモデルRing-mini-sparse-2.0-expは、長文の推論において優れた性能を発揮し、スループットが約3倍向上しています。
🔍 このモデルは革新的なスパース注目メカニズムを採用しており、効率的な推論と文脈処理能力の両方を兼ね備えています。
📥 モデルは複数のプラットフォームでオープンソース化されており、コミュニティによる応用と研究が可能となっています。
