アントグループ傘下の百靈大モデルシリーズは本日、重要なアップデートを実施し、Ling-2.6-flashがグローバルな開発者に正式に公開されました。異なるハードウェア環境に対応し、導入のハードルを下げるために、このモデルはBF16、FP8、INT4などの複数の精度バージョンを同時にリリースしました。これは開発者にさらに柔軟な推論選択肢を提供することを目的としています。

総パラメータ数が104Bで、アクティブパラメータ数が7.4BであるInstructモデルであるLing-2.6-flashは、公式発表前に「Elephant Alpha」という匿名の名前でOpenRouterプラットフォームで先行テストを行いました。2週間の試験運用期間中に、研究開発チームは多くの実際のフィードバックを受け取り、モデルをターゲットにした最適化を行い、中国語と英語の自然な切り替えの流れを大幅に向上させ、主流のプログラミングフレームワークでの互換性もより優れました。

image.png

技術的特徴: ミックスアーキテクチャと最大限の効率

Ling-2.6-flashの競争力は、その独自なアーキテクチャ設計と非常に高い実行効率に集約されています:

  • ミックス線形アーキテクチャ: 低レイヤーの計算最適化により、モデルは非常に高速な推論性能を示します。4枚のH20カード環境において、推論速度は最高で340トークン/秒になります。Prefill(プレフィル)スループット指標では、Nemotron-3-Superの2.2倍に達しており、応答遅延を大幅に短縮しています。

  • 優れた「知能効率比」: 研究開発チームはトレーニング過程においてトークン効率を深く調整しました。評価データによると、同等品質のタスクを完了するには、Ling-2.6-flashは約15Mトークンのみが必要であり、これは同類製品の10分の1にすぎず、商業利用コストを大きく削減しています。

シーンの掘り下げ: 定向強化されたエージェント機能

現在の大規模モデルアプリケーションで最も広く使われているAgent(エージェント)シーンに対して、Ling-2.6-flashは特別な強化を行いました。複雑なツール呼び出し、論理的な多段階計画、そして最終的なタスク遂行能力において、このモデルは安定したパフォーマンスを示しています。BFCL-V4、SWE-benchなど、業界で主流となる評価テストにおいて、アクティブパラメータ数がより大きいモデルに直面しても、Ling-2.6-flashは近い、あるいは業界トップレベル(SOTA)の性能を維持することができます。

現在、開発者はHugging FaceおよびModelScope(魔搭コミュニティ)を通じてこのモデルのオープンソースリソースを取得でき、さまざまな業界応用における潜在力をさらに探求できます。