マイクロソフトは最近、新しいrStar-Math技術を発表しました。この革新的な推論方法は、小型言語モデル(SLM)に適用でき、数学問題におけるパフォーマンスを大幅に向上させ、場合によってはOpenAIのo1-previewモデルを凌駕します。この技術はまだ研究段階にあり、関連する研究論文はarXiv.orgで公開されています。マイクロソフト、北京大学、清華大学の8人の著者による共同研究です。

image.png

テストでは、rStar-Math技術は、マイクロソフトのPhi-3ミニモデル、アリババのQwen-1.5B(15億パラメータモデル)とQwen-7B(70億パラメータモデル)など、複数の小型オープンソースモデルに適用されました。テストの結果、すべての参加モデルのパフォーマンスが向上し、MATHベンチマークテストでは、rStar-MathがOpenAIの以前の最先端モデルを上回りました。

研究チームは、GitHubで関連コードとデータを公開する予定です。現在内部レビュー中のため、まだ公開されていませんが、コミュニティはこの技術に大きな関心を示しており、多くのメンバーがモンテカルロ木探索(MCTS)との組み合わせによる段階的な推論方法を称賛し、幾何学的証明や記号的推論などの分野で幅広い応用が期待されると述べています。

rStar-Mathの中核は、モンテカルロ木探索を利用することです。この方法は人間の「深い思考」を模倣し、数学問題の解決策を段階的に洗練することで、小型モデルの自己進化を支援します。研究者たちはMCTSを単純に適用するだけでなく、モデルに自然言語による推論ステップとPythonコードを同時に出力させることを要求しました。この要求により、モデルの効率的なトレーニングが促進されました。

4回の自己進化を経て、rStar-Mathは複数のベンチマークテストで顕著な成果を上げました。MATHベンチマークテストでは、Qwen2.5-Math-7Bモデルの正確性が58.8%から90.0%に上昇し、OpenAIのo1-previewを上回りました。また、アメリカ数学コンテスト(AIME)では、このモデルは問題の53.3%を解決し、高校生の競争者の上位20%に位置づけられました。

近年、人工知能のイノベーションは主にモデルパラメータの増加に依存してきましたが、それに伴う高コストから、この拡張の持続可能性に疑問が投げかけられています。マイクロソフトはrStar-Mathによって小型モデルの可能性を示し、高効率の方向性を強調しました。この技術の発表は、専門的な小型モデルが大型システムの強力な代替手段となり得ることを示しており、中規模組織や学術研究者に対し、膨大な財政的および環境的負担を負うことなく、最先端の能力を提供します。

論文へのリンク:https://arxiv.org/pdf/2501.04519

要点:

🌟 マイクロソフトがrStar-Math技術を発表し、小型モデルの数学問題におけるパフォーマンスを向上。

📊 この技術は複数のオープンソースモデルでテストされ、一部のモデルはOpenAIのo1-previewを上回るパフォーマンスを示した。

🔍 研究チームはGitHubでコードを公開する予定で、コミュニティの注目を集め、小型モデルの大きな可能性を示している。