AIモデルアーキテクチャは深刻な変革を経験しています。拡散言語モデルは、並列生成と効率的な推論能力により、業界の注目を集めています。10月9日、AI研究機関であるRadical NumericsはRND1-Baseを正式に発表しました。これはこれまでで最大規模のオープンソースの拡散言語モデルであり、パラメータ数は30Bで、アクティブパラメータは3Bで、スパースエキスパートミックス構造を採用しています。このモデルはベンチマークテストで優れた性能を示し、完全な重み、トレーニングのレシピ、および推論コードをオープンソース化しており、拡散言語モデル分野における後続トレーニングと推論研究の加速を目指しています。
RND1-BaseはQwen3-30BA3Bの自己回帰ベースモデルに基づいており、単純な連続プリトレーニングを通じて拡散の范式へのスムーズな移行を実現しました。変換プロセスでは、バイ方向マスク機構とレイヤー固有の学習率を使用して既存の知識を保持し、最大8Mトークンのバッチサイズでトレーニングを行い、安定性を確保しました。最終的に500Bトークンでプリトレーニングが完了しました。この効率的な方法は、ゼロからトレーニングを行うことによるリソースの浪費を回避し、Radical Numericsがモデル再利用において持つ革新的な考え方を示しています。
従来の自己回帰型言語モデルが逐次的にトークンを生成する順序モードとは異なり、RND1はテキスト生成を画像のノイズ除去に似たプロセスとして捉え、ノイズから全体のシーケンスを並列的に精製し、双方向のアテンションメカニズムをサポートします。これにより、生成の柔軟性と制御性が向上し、推論遅延が顕著に低下し、特に複雑な推論やコード生成タスクに適しています。

汎用ベンチマークテストでは、RND1-BaseはDream-7BやLLaDA-8Bなどのオープンソースの拡散言語モデルの先駆者を上回る強力な実力を示しました。具体的な成績には、MMLU多タスク言語理解で57.2%、GSM8K数学推論で72.1%、MBPPコード生成で51.3%が含まれます。これらの指標は推論、STEM、プログラミングの分野をカバーしており、このモデルが自己回帰ベースの優位性を維持しつつ、拡散アーキテクチャの性能向上を実現していることを証明しています。
RND1のスパースエキスパートミックス設計により、30Bの総パラメータの中で3Bのパラメータのみが活性化され、計算効率が最適化されており、大規模な展開に適しています。このモデルはまだ後続トレーニングを行っておらず、グリーディサンプリング時に偶発的に繰り返しが起こる可能性がありますが、オープンソースコードにはFlashInferとSGLangバックエンドが統合されており、高速な推論イテレーションをサポートしています。
Radical Numericsは次の世代のAIラボとして自身を位置づけており、再帰的自己改善エンジンの構築に専念しています。RND1はそのビジョンの産物であり、自動化されたAI研究プラットフォームを通じて、モデルが次の世代のAIの最適化に参加できるようにしています。このチームはDeepMind、Meta、Liquid、スタンフォードなど、世界的な機関からの研究者とエンジニアによって構成されており、AIが自らAIを設計し、科学と産業の発見を加速することを目指しています。
RND1のオープンソース化の目的は、コミュニティが拡散言語モデルの推論最適化と後続トレーニングの潜在能力を探求することを促進することです。現在、拡散モデルは言語分野での応用が実験段階から実用段階へと移行しており、特に長文の並列生成タスクにおいて優位性を示しています。業界では、この取り組みにより、より多くの自己回帰モデルが拡散モデルへの転換実験を行うことが予想されており、効率的な生成モデルに関するオープンソースエコシステムの空白を埋めるものとなります。
RND1は規模と性能において先頭を走っていますが、拡散モデルの一般化能力とメモリコストはさらに最適化する必要があります。今後、多目標微調整やハイブリッドアーキテクチャを組み合わせることで、さらなる潜在能力が解放される見込みです。Radical Numericsはすでに採用を開始しており、AI業界の人材の参加を歓迎しています。
この突破は、拡散言語モデルが理論的探求から工程実践への重要な転換点を示すものです。如此の大きな拡散モデルをオープンソース化することで、Radical Numericsは研究コミュニティに貴重なツールを提供するだけでなく、AIの自己改善と再帰的最適化の新たな可能性を開拓しました。より多くの研究者がこの分野に参入するにつれ、拡散言語モデルは次の世代のAIアーキテクチャの重要な方向性となるかもしれません。
