マイクロソフトは最近、開発者コミュニティでPhi-4-Reasoning-Vision-15Bという新しいオープンソースのAIモデルを公開しました。このモデルは高解像度の視覚認識能力に加え、深い推論が可能であり、Phi-4シリーズにおける重要な飛躍を示しています。「見ることができる」ことと「深く考える」ことができる「小言語モデル(SLM)」として初めて登場したPhi-4は、開発者にとって新たな知能アプリケーションの可能性を開くことになります。
従来の視覚モデルとは異なり、Phi-4は画像の中身を単に識別するだけでなく、構造的かつ複数ステップの推論を行うことができます。画像内の視覚構造を理解し、それをテキストの文脈と組み合わせることで、実行可能な結論を得ることができます。この能力により、開発者はデータチャートの分析やユーザーインターフェースの自動化などの多様なスマートアプリケーションを作成できます。

Phi-4の設計の特徴は、柔軟な推論モードにあります。深く分析が必要なタスク、例えば数学の問題や論理的な推論の場合、モデルは「推論モード」に切り替えて、複数ステップの推論チェーンを有効にします。一方、迅速な反応が必要なシナリオ、例えばOCR(光学文字認識)や要素の位置指定では、結果を迅速に出力し、遅延を抑えることができます。この柔軟性により、モデルの実用性と効率が大きく向上します。

非推論モード
さらに、Phi-4には大きな応用可能性があります。特にコンピューターアgentの使用シーンにおいてです。ユーザーはスクリーンショットと自然言語の指示を提供するだけで、モデルは必要なUI要素の標準化された境界ボックス座標を出力することができます。他のスマートアジェントモデルはこれに基づいてクリックやスクロールなどの操作を行います。これにより、Phi-4はユーザーにより使いやすい操作体験をもたらします。

推論モード
全体的に見ると、Phi-4-Reasoning-Vision-15Bは技術的にも進歩しており、スマートアプリケーションの開発に強力なサポートを提供しています。このモデルがオープンソースとなることで、多くの開発者がその先進的な機能を使って、より驚きのあるアプリケーションを作り出すことを期待しています。
