アリババ・トングイ研究院のスマートコンピューティングチームは、本日、大規模モデル後のトレーニング分野における新しいアルゴリズムであるFIPO(Future-KL Influenced Policy Optimization)を正式に公開しました。このアルゴリズムは、「Future-KL」メカニズムを導入することで、純粋な強化学習(Pure RL)トレーニングにおいて一般的に見られる「推論長さの停滞」という技術的なハードルを効果的に解決しています。

長文の推論や複雑な論理の整合性をトレーニングする際、従来の強化学習では長いシーケンスの中での重要な意思決定ポイントを正確に捉えるのが難しい場合があります。通義チームが開発したFIPOアルゴリズムは、重要なトークンに対して差別化された報酬配分を行い、モデルが思考過程(CoT)生成中により前向きなアプローチを取れるようにします。

実験結果によると、32B規模のモデルで純粋な強化学習を設定した状況下において、FIPOアルゴリズムを搭載したモデルの性能は、同規模のDeepSeek-Zero-MATHおよびOpenAIのo1-miniをすでに上回っており、これは国内の大規模モデルが論理的推論と数学的計算能力において実質的な進歩を遂げたことを示しています。