記事本文

マイクロソフトが小型マルチモーダルAIモデルPhi-4を発表：思考と認識の完璧な統合！

公開AI二ュ-ス

時間 :Mar 5, 2026

読む :1分

マイクロソフトは最近、開発者コミュニティでPhi-4-Reasoning-Vision-15Bという新しいオープンソースのAIモデルを公開しました。このモデルは高解像度の視覚認識能力に加え、深い推論が可能であり、Phi-4シリーズにおける重要な飛躍を示しています。「見ることができる」ことと「深く考える」ことができる「小言語モデル（SLM）」として初めて登場したPhi-4は、開発者にとって新たな知能アプリケーションの可能性を開くことになります。

従来の視覚モデルとは異なり、Phi-4は画像の中身を単に識別するだけでなく、構造的かつ複数ステップの推論を行うことができます。画像内の視覚構造を理解し、それをテキストの文脈と組み合わせることで、実行可能な結論を得ることができます。この能力により、開発者はデータチャートの分析やユーザーインターフェースの自動化などの多様なスマートアプリケーションを作成できます。

Phi-4の設計の特徴は、柔軟な推論モードにあります。深く分析が必要なタスク、例えば数学の問題や論理的な推論の場合、モデルは「推論モード」に切り替えて、複数ステップの推論チェーンを有効にします。一方、迅速な反応が必要なシナリオ、例えばOCR（光学文字認識）や要素の位置指定では、結果を迅速に出力し、遅延を抑えることができます。この柔軟性により、モデルの実用性と効率が大きく向上します。

非推論モード

さらに、Phi-4には大きな応用可能性があります。特にコンピューターアgentの使用シーンにおいてです。ユーザーはスクリーンショットと自然言語の指示を提供するだけで、モデルは必要なUI要素の標準化された境界ボックス座標を出力することができます。他のスマートアジェントモデルはこれに基づいてクリックやスクロールなどの操作を行います。これにより、Phi-4はユーザーにより使いやすい操作体験をもたらします。

推論モード

全体的に見ると、Phi-4-Reasoning-Vision-15Bは技術的にも進歩しており、スマートアプリケーションの開発に強力なサポートを提供しています。このモデルがオープンソースとなることで、多くの開発者がその先進的な機能を使って、より驚きのあるアプリケーションを作り出すことを期待しています。

国内7社の主要経済メディアが著作権保護声明を発表：AIによる許可なしでのオリジナルコンテンツの取得は禁止

4月27日、7つの主要な金融メディアが共同で著作権声明を発表し、AIの利用に初めて明確な制限を設けました。無断でのオリジナルコンテンツの使用を禁止し、知的財産権を保護し、AIによる著作権の課題に対応することを目的としています。....

Apr 28, 2026

148.9k

クンランワンウェイが「4+3戦略」を発表：技術基盤からビジネスの閉環へ

クンランワンウェイの2025年決算によると、会社の売上高は81.98億元で、前年比44.78％増加し、海外収入は77.23億元で49.91％増加しました。会社は「4+3戦略」を推出し、AIによるコンテンツ制作の発展方向を明確にし、技術とビジネスのレイアウトをカバーしています。

Apr 24, 2026

235.2k

OpenAIがGPT-5.5を正式リリース。1メガワット出力が50倍に向上

2026年4月24日、OpenAIは最強のAIモデルGPT-5.5を発表しました。このモデルは知的な質の飛躍的向上と効率の大幅な向上を実現し、エージェント時代に特化して設計されています。自律的に計画を立て、ツールを呼び出して複数ステップの複雑なタスクを実行でき、コード生成、研究および企業の自動化において優れた性能を発揮します。コア的な進歩は受動的な応答から能動的な実行へのシフトであり、著しく自律性を高めています。

Apr 24, 2026

289.5k

GPT-5.5が偶然に登場、OpenAIのスマートエージェント時代が早まった？

OpenAIが同じ日にChatGPT Images 2.0画像生成ツールを発表した際、開発環境で「GPT-5.5」という名前の謎のモデルが偶然現れ、開発者コミュニティを驚かせた。複数のユーザーがCodex CLIのターミナル画面でこのモデルを見つけ、RedditのユーザーDavidAGMMがそのリークをビデオで確認した。

Apr 22, 2026

544.3k

メタが社内監視ツールを公開し、従業員のマウスとキーボード操作データを使ってAIモデルを訓練

メタは従業員のオフィスデータを使ってAIを訓練する計画を立てており、マウスの移動やキーボード入力などの行動を追跡することで、より効率的なシステムを構築する予定である。この取り組みは、テクノロジー大手が外部データが減少している状況で、AIのパフォーマンス向上のために内部の「クリックストリーム」データを掘り下げようとしていることを示している。

Apr 22, 2026

160.2k

インテリジェントな未来、あなたの人工知能ソリューションシンクタンク