小紅書は最近、初めての大規模モデルである「dots.llm1」をオープンソースにしました。このモデルは1420億のパラメータを持ち、専門家ミキシングモデル(MoE)です。その設計における特筆すべき点は、推論プロセスにおいてわずか140億のパラメータしかアクティブにならないことです。この構造は高いパフォーマンスを維持しつつ、訓練と推論コストを大幅に削減します。

image.png

dots.llm1は、11.2兆個の高品質な非合成トレーニングデータを使用しており、現在のオープンソースの大規模モデルでは非常に珍しいです。これにより、小紅書が自然言語処理分野で持つ強力なリソースが示されています。このモデルは中国語テストでも優れたパフォーマンスを発揮し、平均スコア91.3を達成し、DeepSeekのV2、V3やアリババのQwen2.5シリーズなどの競合製品を上回りました。

技術的なアーキテクチャに関しては、dots.llm1は単方向デコーダーTransformer構造を採用し、従来のフィードフォワードネットワークをMoEに置き換えています。伝統的なモデルとは異なり、MoEは複数のエキスパートネットワークを分離し、各ネットワークは異なる入力データの特性に特化しています。これにより、推論時に一部のネットワークだけをアクティブにして計算することで、計算能力の要求を大幅に削減できます。

具体的には、dots.llm1には128のルーティングエキスパートと2つの共有エキスパートが含まれています。各エキスパートは、SwiGLU活性化関数を使用した2層のフィードフォワード構造を持つネットワークです。これにより、データ内の複雑な関係を捉えられます。入力マークを処理する際、モデルは6つの最も関連性の高いエキスパートと2つの共有エキスパートを選択して計算を行います。

さらに、dots.llm1はトレーニング中に改良されたRMSNorm正規化操作を取り入れており、モデルのパフォーマンスと出力を安定させています。MoEモジュールでは負荷バランス戦略が導入されており、全てのエキスパートネットワークの使用が均等になるように調整され、特定のエキスパートへの過度な依存を防ぎます。

モデルのトレーニング効率を向上させるために、dots.llm1はAdamWオプティマイザーを使用しています。このアルゴリズムは、モデルの過学習を効果的に防ぎ、勾配爆発を制御します。

大規模モデルのトレーニングに重要なのはデータ処理であり、dots.llm1は厳格な3段階のデータ処理パイプラインを通じて、トレーニングデータの質を確保しました。一連のフィルタリングと処理を経て、最終的に11.2兆個の高品質トークンのトレーニングデータが形成されました。また、小紅書は学術研究のさらなる進展を促すため、各1兆トークンの中間トレーニングチェックポイントもオープンソースにしました。

オープンソースURL: https://huggingface.co/rednote-hilab/dots.llm1.base/tree/main

ポイントをまとめると:

🌟 dots.llm1は小紅書が公開した最初の大規模モデルで、1420億パラメータの専門家ミキシング構造を採用しています。

📊 モデルは11.2兆個の非合成データを使用し、中国語テストで優れたパフォーマンスを発揮しました。

🔍 厳格なデータ処理パイプラインにより、トレーニングデータの質と信頼性を保証しています。