人工知能モデルのパラメータ数は必ずしも「大きいほど良い」のでしょうか?最近、新浪がオープンソースしたVibeThinker-3Bモデルは、非常に示唆的な答えを提供しました。このモデルは30億のパラメータしか持たないにもかかわらず、数学やプログラミングなどの高難度のベンチマークテストにおいて、主流の大規模モデルの100倍の規模を持つものと同等の強力な性能を示しており、一部のコンペティションレベルのタスクでは複数の業界トップ製品を上回る結果を達成しています。
VibeThinker-3Bの優れたパフォーマンスは偶然ではありません。これは独自のトレーニング戦略に起因しています。このモデルはアリババのQwen2.5-Coder-3Bをベースにし、監督微調整、強化学習、自己蒸留、指示微調整などの多段階の細かい「後トレーニング」を通じて、大規模モデルの論理的推論能力を3Bの軽量アーキテクチャに深く詰め込むことで実現されました。テスト結果によると、LeetCodeの競技問題においては128問中123問を効率的に解決できており、これはGPT-5.2などの業界の基準を上回っています。

今回の発表で最も注目すべき点は、研究チームが提案した「パラメータ圧縮・カバー仮説」です。研究結果から、AIの能力は「一貫した塊」としてではなく、論理的推論やプログラミング演算など構造が明確なタスクは特定のパターンのトレーニングにより非常に高い密度に圧縮できることがわかりました。一方で、広範な世界知識の蓄積は依然として膨大なパラメータ量に依存しています。これは、今後論理的推論タスクにおいて、必ずしも高コストな超大規模モデルを呼び出す必要がないことを意味します。

現在、VibeThinker-3Bは
