アントグループは最近、最新のエース大規模モデルである「Ling-1T」をオープンソース化したことを発表しました。このモデルは最大で1兆個のパラメータを持ち、現在までにFP8低精度モードで訓練された最大のベースモデルです。Ling-1Tはアント内の「Bailing(百靈)」チームによって開発され、人工知能技術の新たな突破を示しています。

image.png

チームの説明によると、Ling-1TはLing2.0モデルファミリーに属しており、三大シリーズに分かれています:Lingシリーズ、Ringシリーズ、Mingシリーズ。Lingシリーズは一般的なタスクを処理し、速度と効率を重視し、Ringシリーズは深い思考と複雑な推論に焦点を当てており、Mingシリーズはマルチモーダルモデルであり、より豊かな情報タイプを処理できます。

Ling-1Tは1兆のパラメータを持っていますが、各トークンを処理する際には実際には約500億のパラメータがアクティブ化されるため、計算コストを大幅に削減しています。このような大規模モデルを支えるために、アントチームは「Lingスケーリング則」を提案しました。300以上のモデルの実験を通じて、計算効率と専門家アクティベーション比の関係をまとめました。さらにWSMという学習率スケジューラーを開発し、トレーニング中に自動的に学習戦略を調整することで、モデルが安定して効率的にトレーニングできるようにしています。

Ling-1Tのトレーニングプロセスは3つの段階に分けられます:プリトレーニング、ミドルトレーニング、ポストトレーニング。プリトレーニング段階では、20兆を超えるトークンデータに触れ、その多くが推論集中的なテキストです。ミドルトレーニング段階ではモデルの推論能力を強化することに注力し、ポストトレーニング段階では「進化的な思考チェーン」技術を使用して自己改善を行い、推論精度を向上させます。

他の主要なモデルとの比較において、Ling-1Tは多くのテストで優れた性能を示し、特に数学的推論やコード生成能力において、他モデルを上回る優れた性能を発揮しています。コミュニティのテストでは、Ling-1Tは複雑なタスクでも目覚ましい結果を示しており、物理現象や宇宙の進化なども成功裏にシミュレーションできることを証明しています。

ただし、Ling-1Tにもいくつかの制限があります。例えば、超長文のコンテキストを処理する際のコストが高いため、アントチームは新しいハイブリッドアテンションアーキテクチャの研究を行っていると述べています。

オープンソースのアドレス:  

HuggingFace:https://huggingface.co/inclusionAI/Ling-1T  

GitHub:https://github.com/inclusionAI/Ling-V2  

ポイント:  

🔍 現在までに知られている最大の1兆パラメータモデルで、FP8低精度モードでトレーニングされています。

🚀 数学的推論やコード生成において、多くの主要モデルを上回る優れた性能を示しています。

⚙️ アントチームは、Ling-1Tの超長文コンテキスト処理におけるコスト問題を解決する新しいアーキテクチャの研究を行っています。