AI技術の進歩に伴い、大規模モデルが「並行的思考」能力を持つことについて、研究者たちは注目を集めています。最近、騰訊AIラボは複数の大学と協力して、「Parallel-R1」という新しい強化学習(RL)フレームワークを発表しました。このフレームワークは、大規模モデルが同時に複数の推論経路を探索する方法を学ばせることが目的です。この革新的なフレームワークは、複雑な数学的推論タスクに対処するための新しいアプローチを開きました。

image.png

従来の方法は主に教師あり微調整(SFT)に依存しており、データの品質が非常に高いだけでなく、モデルは既存のデータを模倣するだけで、自主的な学習や汎化能力に欠ける傾向があります。これらの問題を解決するために、Parallel-R1フレームワークが登場しました。研究チームの重要な発見は、単純なプロンプトを使うことで、モデルが簡単な数学問題を処理する際に高品質な並行的思考データを生成できるということでした。その後、一連の「段階的なカリキュラム」トレーニングモードを通じて、モデルはまず簡単なタスクから並行的思考の「文法形式」を学び、次第に複雑な数学問題へと移行しながら強化学習を行います。

image.png

さらに、チームは報酬設計の問題に対して、交互的な報酬戦略を提案しました。この戦略は、「問題解決の正確さ」と「思考の多様性」のバランスを巧みに取っています。トレーニング中、モデルは大部分の時間、「正確さへの報酬」を主に与えられ、一部の時間は並行的思考を使用することに対する追加報酬を与えられます。この戦略により、モデルの並行的思考使用率が顕著に向上し、多くの数学ベンチマークテストで大きな改善をもたらしました。

実験結果によると、Parallel-R1フレームワークにより、モデルは複数の数学ベンチマークで平均正解率が最大8.4%向上し、AIME25テストでは42.9%の性能飛躍を達成しました。研究者たちは、トレーニングを経た後、モデルの思考戦略が初期の「広範囲に網をかける」探索から、後に「正確な検証」へと変化することを確認しました。これは、並行的思考がもたらす優位性を示しています。

Parallel-R1の成功は、大規模モデルの推論能力に新たな方向性を示し、今後のAI研究にも新たなアイデアを提供し、複雑なタスクを解決する際の並行的思考の潜在能力を示しています。