32Bの推論性能がo1-miniを上回る！アリババ・チュンイーがFIPOアルゴリズムを発表　大規模モデルがより深く考えるようになる

報道によると、アリタイヨンラボのQwen Pilotチームは、新しいアルゴリズムであるFIPOを公開しました。このアルゴリズムは、従来の強化学習（RL）が複雑な論理処理で抱えていた限界を打破し、モデルが推論の長さと正確性の両方で飛躍的な進歩を遂げることを目指しています。

コア的な突破：「推論長の停滞」の解決

伝統的なモデルでは、数学などの複雑な問題に直面したとき、どのTokenが正しい答えへの鍵となるのかを区別するのが難しいことがあります。FIPOアルゴリズムはこれを目的別に再構築しています：

Future-KLメカニズム： 今後の推論に著しい前向きな影響を与えるTokenに対して特別な報酬を提供するFuture-KL戦略を取り入れ、AIに「先を見通す」能力を学ばせます。

符号対数確率差： この新しいメカニズムにより、モデルの最適化方向を正確に捉え、推論プロセスが無駄なループに陥らないようにします。

推論長の飛躍： 零から始まるモデルにおいて、FIPOは平均的な推論長を10,000トークン

実績豊か：32Bモデルがo1-miniを逆転

実験的な比較において、FIPOアルゴリズムを搭載した32B規模のモデルは驚くべき「小銃型」の性能を示しました：

競合を上回る： 強化学習の純粋な設定において、その推論性能は同規模のモデルを上回り、一部の指標ではOpenAIのo1-miniを凌駕しました。

数学的ポテンシャル： 高難度の数学的推論問題を処理する際、このアルゴリズムは特に優れた表現を見せ、非常に強い論理的導出の可能性を示しています。

業界背景：アリタイヨンラボの「知能進化」

アリタイヨンラボは最近、AIの基盤アルゴリズムにおいて活発な動きを見せています。今回の注目すべきFIPOアルゴリズムに加え、3月にはCoPaw 1.0新バージョンをリリースしており、モデルの論理的厳密性と相互作用の深さを向上させる継続的な努力を示しています。

結論：推論効率の「第二の曲線」

業界がパラメータサイズについて議論している間、アリタイヨン

前ディープマインドチームの量子AI企業EquiLibre、Aラウンド資金調達を完了し、評価額は5億ドルに達する

元DeepMind研究者が設立したEquiLibre Technologiesが強化学習を金融取引に応用。Aラウンドで評価額5億ドル、Creandum主導で同社最大の投資に。Tower Research Capitalと協業し、1日数十億ドルを取引。2025年には暗号通貨市場に参入予定。....

NVIDIAがオープンソースのPolarフレームワークをリリース：AIコーディングエージェントの強化学習をゼロコストで進化

NVIDIAがPolar強化学習トレーニングフレームワークをオープンソース化。主な革新点は、CodexやClaude Codeなどの主要コードエージェントがネイティブコードを変更せずにGRPOトレーニングに接続できること。このフレームワークは、コードエージェントが単一ステップタスクから複雑な長フロータスク（リポジトリレベルの変更やOSインタラクションなど）へ進化する際の業界課題を解決し、エージェント強化学習の「壁」を打破する。....

テンセントがOpenSearch-VLをリリース：オープンソースのマルチモーダル深層検索エージェントのフルセットソリューション

テンセントの混元は、UCLAや香港中文大学などと協力し、マルチモーダル大規模言語モデル（MLLMs）の「受動的理解」から「能動的推論」への進化を促進するため、マルチモーダル検索エージェントをオープンソース化しました。これまで、高品質データ、自動軌跡合成パス、訓練レシピの欠如により、トップエージェントの再現が困難でした。今回のオープンソース化は、この停滞を打破し、コミュニティの発展を目指します。....

32Bの推論性能がo1-miniを上回る！アリババ・チュンイーがFIPOアルゴリズムを発表　大規模モデルがより深く考えるようになる

コア的な突破：「推論長の停滞」の解決

実績豊か：32Bモデルがo1-miniを逆転

業界背景：アリタイヨンラボの「知能進化」

関連推奨

エージェントをどんどん強化できる：AReaL2.0がオープンソースに。自己進化型知能エージェント向けのRLインフラストラクチャを構築

前ディープマインドチームの量子AI企業EquiLibre、Aラウンド資金調達を完了し、評価額は5億ドルに達する

NVIDIAがオープンソースのPolarフレームワークをリリース：AIコーディングエージェントの強化学習をゼロコストで進化

テンセントがOpenSearch-VLをリリース：オープンソースのマルチモーダル深層検索エージェントのフルセットソリューション

アリババ・トラネクス研究所がFIPOアルゴリズムを発表。32Bモデルの推論性能がo1-miniを上回る

32Bの推論性能がo1-miniを上回る！アリババ・チュンイーがFIPOアルゴリズムを発表 大規模モデルがより深く考えるようになる

コア的な突破：「推論長の停滞」の解決

実績豊か：32Bモデルがo1-miniを逆転

業界背景：アリタイヨンラボの「知能進化」

関連推奨

エージェントをどんどん強化できる：AReaL2.0がオープンソースに。自己進化型知能エージェント向けのRLインフラストラクチャを構築

前ディープマインドチームの量子AI企業EquiLibre、Aラウンド資金調達を完了し、評価額は5億ドルに達する

NVIDIAがオープンソースのPolarフレームワークをリリース：AIコーディングエージェントの強化学習をゼロコストで進化

テンセントがOpenSearch-VLをリリース：オープンソースのマルチモーダル深層検索エージェントのフルセットソリューション

アリババ・トラネクス研究所がFIPOアルゴリズムを発表。32Bモデルの推論性能がo1-miniを上回る

32Bの推論性能がo1-miniを上回る！アリババ・チュンイーがFIPOアルゴリズムを発表　大規模モデルがより深く考えるようになる