アリババ・チュンイー研究所のQwen Pilotチームは最近、FIPO(Future-KL Influenced Policy Optimization)という新しいアルゴリズムを発表しました。このアルゴリズムは、現在の大規模モデルが推論プロセスで直面している課題を突破することを目的としています。従来の強化学習法(RLVR)では、推論チェーン内の各トークンについて、最終的な結果に重要な影響を与えるものかどうかを区別することができません。したがって、重要なトークンを正確に特定する方法は今なお解決すべき課題となっています。

image.png

FIPOアルゴリズムは、後の推論に顕著な影響を与えるトークンに対して特化した報酬を提供する「Future-KL」メカニズムを取り入れており、純粋なRLトレーニングにおける「推論長さの停滞」問題を解決しています。実際のテストでは、FIPOは32B規模の純粋なRL設定において、o1-miniやDeepSeek-Zero-MATHなどの同規模のモデルを上回る性能を示しました。

image.png

チームの研究結果によると、大多数のトークンはトレーニング前後でほとんど変化せず、強化学習の影響が極めて希薄であることがわかりました。チームは、業界で一般的に使われている評価指標であるエントロピーやKLダイバージェンスが、重要なトークンの変化を正確に特定することが難しいことを発見しました。そのため、彼らは新たな観測次元として「シンボル対数確率差(Δlog p)」を導入し、最適化の方向性を効果的に捉えました。

実験では、FIPOアルゴリズムはゼロベースのモデルQwen2.5-32B-Base上でテストされ、推論長さのボトルネックを突破し、平均的な推論長さが10,000トークン以上になりました。同時に、このアルゴリズムは推論の精度を大幅に向上させ、複雑な数学的推論における潜在能力を証明しました。

ポイント:  

🔍 FIPOアルゴリズムはアリババ・チュンイー研究所によって開発され、大規模モデルの推論能力を向上させることが目的です。

📈 このアルゴリズムは、推論に重要な影響を与えるトークンを正確に特定でき、推論長さのボトルネックを突破します。

🧠 実験結果から、FIPOは複雑な数学的推論において従来のアルゴリズムよりも優れていることが示されています。