アリババ・トラネクス研究所がFIPOアルゴリズムを発表。32Bモデルの推論性能がo1-miniを上回る

アリババ・トングイ研究院のスマートコンピューティングチームは、本日、大規模モデル後のトレーニング分野における新しいアルゴリズムであるFIPO（Future-KL Influenced Policy Optimization）を正式に公開しました。このアルゴリズムは、「Future-KL」メカニズムを導入することで、純粋な強化学習（Pure RL）トレーニングにおいて一般的に見られる「推論長さの停滞」という技術的なハードルを効果的に解決しています。

長文の推論や複雑な論理の整合性をトレーニングする際、従来の強化学習では長いシーケンスの中での重要な意思決定ポイントを正確に捉えるのが難しい場合があります。通義チームが開発したFIPOアルゴリズムは、重要なトークンに対して差別化された報酬配分を行い、モデルが思考過程（CoT）生成中により前向きなアプローチを取れるようにします。

実験結果によると、32B規模のモデルで純粋な強化学習を設定した状況下において、FIPOアルゴリズムを搭載したモデルの性能は、同規模のDeepSeek-Zero-MATHおよびOpenAIのo1-miniをすでに上回っており、これは国内の大規模モデルが論理的推論と数学的計算能力において実質的な進歩を遂げたことを示しています。

NVIDIAがオープンソースのPolarフレームワークをリリース：AIコーディングエージェントの強化学習をゼロコストで進化

NVIDIAがPolar強化学習トレーニングフレームワークをオープンソース化。主な革新点は、CodexやClaude Codeなどの主要コードエージェントがネイティブコードを変更せずにGRPOトレーニングに接続できること。このフレームワークは、コードエージェントが単一ステップタスクから複雑な長フロータスク（リポジトリレベルの変更やOSインタラクションなど）へ進化する際の業界課題を解決し、エージェント強化学習の「壁」を打破する。....

テンセントがOpenSearch-VLをリリース：オープンソースのマルチモーダル深層検索エージェントのフルセットソリューション

テンセントの混元は、UCLAや香港中文大学などと協力し、マルチモーダル大規模言語モデル（MLLMs）の「受動的理解」から「能動的推論」への進化を促進するため、マルチモーダル検索エージェントをオープンソース化しました。これまで、高品質データ、自動軌跡合成パス、訓練レシピの欠如により、トップエージェントの再現が困難でした。今回のオープンソース化は、この停滞を打破し、コミュニティの発展を目指します。....

ミリオン級のエージェントの試練！MiniMaxと Tencent Cloudが提携：RLサンドボックスが全量を安定して運用

MiniMaxは Tencent Cloudと協力し、百万級のスロットルおよび十万級の並列処理能力を持つエージェントの強化学習サンドボックスを成功裏に展開し、テスト環境で全量を安定して運用しました。これはAIエージェントの基盤的なインフラ能力において重要な突破であり、大規模な応用を実現するための重要な支援を提供しています。

アリババ・トラネクス研究所がFIPOアルゴリズムを発表。32Bモデルの推論性能がo1-miniを上回る

関連推奨

NVIDIAがオープンソースのPolarフレームワークをリリース：AIコーディングエージェントの強化学習をゼロコストで進化

テンセントがOpenSearch-VLをリリース：オープンソースのマルチモーダル深層検索エージェントのフルセットソリューション

32Bの推論性能がo1-miniを上回る！アリババ・チュンイーがFIPOアルゴリズムを発表　大規模モデルがより深く考えるようになる

アリババ・トラネルがFIPOアルゴリズムを発表大規模モデルの推論能力を大幅に向上

ミリオン級のエージェントの試練！MiniMaxと Tencent Cloudが提携：RLサンドボックスが全量を安定して運用

アリババ・トラネクス研究所がFIPOアルゴリズムを発表。32Bモデルの推論性能がo1-miniを上回る

関連推奨

NVIDIAがオープンソースのPolarフレームワークをリリース：AIコーディングエージェントの強化学習をゼロコストで進化

テンセントがOpenSearch-VLをリリース：オープンソースのマルチモーダル深層検索エージェントのフルセットソリューション

32Bの推論性能がo1-miniを上回る！アリババ・チュンイーがFIPOアルゴリズムを発表 大規模モデルがより深く考えるようになる

アリババ・トラネルがFIPOアルゴリズムを発表 大規模モデルの推論能力を大幅に向上

ミリオン級のエージェントの試練！MiniMaxと Tencent Cloudが提携：RLサンドボックスが全量を安定して運用

32Bの推論性能がo1-miniを上回る！アリババ・チュンイーがFIPOアルゴリズムを発表　大規模モデルがより深く考えるようになる

アリババ・トラネルがFIPOアルゴリズムを発表大規模モデルの推論能力を大幅に向上