報道によると、アリタイヨンラボのQwen Pilotチームは、新しいアルゴリズムであるFIPOを公開しました。このアルゴリズムは、従来の強化学習(RL)が複雑な論理処理で抱えていた限界を打破し、モデルが推論の長さと正確性の両方で飛躍的な進歩を遂げることを目指しています。

コア的な突破:「推論長の停滞」の解決

伝統的なモデルでは、数学などの複雑な問題に直面したとき、どのTokenが正しい答えへの鍵となるのかを区別するのが難しいことがあります。FIPOアルゴリズムはこれを目的別に再構築しています:

Future-KLメカニズム: 今後の推論に著しい前向きな影響を与えるTokenに対して特別な報酬を提供するFuture-KL戦略を取り入れ、AIに「先を見通す」能力を学ばせます。

符号対数確率差: この新しいメカニズムにより、モデルの最適化方向を正確に捉え、推論プロセスが無駄なループに陥らないようにします。

推論長の飛躍: 零から始まるモデルにおいて、FIPOは平均的な推論長を10,000トークン

実績豊か:32Bモデルがo1-miniを逆転

実験的な比較において、FIPOアルゴリズムを搭載した32B規模のモデルは驚くべき「小銃型」の性能を示しました:

競合を上回る: 強化学習の純粋な設定において、その推論性能は同規模のモデルを上回り、一部の指標ではOpenAIのo1-miniを凌駕しました。

数学的ポテンシャル: 高難度の数学的推論問題を処理する際、このアルゴリズムは特に優れた表現を見せ、非常に強い論理的導出の可能性を示しています。

業界背景:アリタイヨンラボの「知能進化」

アリタイヨンラボは最近、AIの基盤アルゴリズムにおいて活発な動きを見せています。今回の注目すべきFIPOアルゴリズムに加え、3月にはCoPaw 1.0新バージョンをリリースしており、モデルの論理的厳密性と相互作用の深さを向上させる継続的な努力を示しています。

結論:推論効率の「第二の曲線」

業界がパラメータサイズについて議論している間、アリタイヨン