マイクロソフトは最近、Hugging Faceプラットフォーム上で、Phi-4という小型言語モデルを発表しました。このモデルのパラメータ数はわずか140億個ですが、様々な性能テストで優れた結果を示し、OpenAIのGPT-4oや、Qwen2.5、Llama-3.1などの他の同種のオープンソースモデルを凌駕しています。
以前行われたアメリカ数学コンテストAMCのテストでは、Phi-4は91.8点を獲得し、Gemini Pro1.5、Claude3.5Sonnetなどの競合他社を大きく上回りました。さらに驚くべきことに、この小規模なパラメータモデルはMMLUテストで84.8点の高得点を取得し、その強力な推論能力と数学処理能力を十分に示しました。
多くの有機データソースに依存するモデルとは異なり、Phi-4はマルチエージェントプロンプト、命令反転、自己修正などの技術を用いて、高品質の合成データを生成する革新的な方法を採用しています。これらの方法は、Phi-4の推論能力と問題解決能力を大幅に向上させ、より複雑なタスクを処理できるようにしています。
Phi-4はデコーダーのみのTransformerアーキテクチャを採用しており、最大16kのコンテキスト長をサポートしているため、大規模な入力データの処理に非常に適しています。その事前学習には約10兆個のトークンが使用され、合成データと厳しく選別された有機データの組み合わせにより、MMLUやHumanEvalなどのベンチマークテストで優れた結果が得られています。
Phi-4の特徴と利点としては、消費レベルのハードウェアに適したコンパクトさと効率性、STEM関連タスクにおいて前世代やより大規模なモデルを凌駕する推論能力、特定の分野のニーズに合わせて調整しやすい多様な合成データセットとの微調整のサポートなどが挙げられます。さらに、Phi-4はHugging Faceプラットフォーム上で詳細なドキュメントとAPIを提供しており、開発者は簡単に統合できます。
技術革新の面では、Phi-4の開発は、合成データ生成のためのマルチエージェントと自己修正技術、拒否サンプリングや直接選好最適化(DPO)などの後学習強化方法、そして基準との重複データを最小限に抑えるために厳しくフィルタリングされたトレーニングデータという3つの柱に基づいています。これにより、モデルの汎化能力が向上しています。さらに、Phi-4は重要な節点を特定するために重要なトークン検索(PTS)を利用し、複雑な推論タスクの処理能力を最適化しています。
Phi-4のオープンソース化により、開発者の期待がついに実現しました。このモデルはHuggingFaceプラットフォームからダウンロードできるだけでなく、MITライセンスの下で商用利用も可能です。このオープンポリシーは多くの開発者やAI愛好家の注目を集め、HuggingFaceの公式ソーシャルメディアも「史上最高の14Bモデル」と称賛しています。
モデルへのアクセス:https://huggingface.co/microsoft/phi-4
要点:
🧠 ** マイクロソフトが小型言語モデルPhi-4を発表。パラメータ数はわずか140億個ながら、多くの有名モデルを上回る性能。**
📊 ** 様々な性能テストでPhi-4は優れた結果を示し、特に数学と推論において顕著。**
🌐 Phi-4は現在オープンソース化されており、商用利用も可能。多くの開発者の注目を集めている。