マイクロソフトは最近、最新に開発したマルチモーダル推論モデル「Phi-4-reasoning-vision-15B」を正式にオープンソース化しました。このモデルは15Bのパラメータ規模を持つものの、軽量性を維持しながら高性能と低コストの理想のバランスを実現し、リソース制限のある環境での複雑な視覚タスクに対して新たな選択肢を提供します。
データ駆動型の「小銃砲」
業界で一般的な数兆単位のトークンを消費するモデルとは異なり、Phi-4-reasoning-vision は200B以上のマルチモーダルトークンを使用してトレーニングされています。開発チームはデータ品質を最優先にし、オープンソースデータの深いクリーニング、特化した合成データの生成、そして精密な分野別データの比率調整(例えば数学データの増加によりコンピュータ操作能力が向上)を通じて、科学的推論やスクリーン位置指定タスクにおいて優れた性能を実現しています。

イノベーションなハイブリッド推論戦略
このモデルの大きな特徴は、「ハイブリッド推論パス」の設計です:
センシングタスク: 画像記述やOCRなどの簡単なタスク処理では、モデルはデフォルトで直接回答モードを使用し、遅延を効果的に低下させます。
推論タスク: 数学式や科学的な図表などの複雑な論理に対処する際には、モデルは構造化された思考チェーン(CoT)パスを自動的に呼び出し、答えの正確さを確保します。
ユーザーは特定のガイドワードを使用して、これらの2つのモードを手動で切り替えることも可能です。
SigLIP-2の動的解像度エンコーダーの導入により、このモデルは高解像度スクリーンショットの中の小さな要素にも非常に鋭い感覚を持っています。これにより、コンピュータ操作アシスタント(CUA)を開発するための理想的な選択肢となり、ウェブページやスマートフォン画面のボタンや入力フィールドを正確に識別し操作できます。
