DeepSeek-V4が公開され業界を震撼させたわずか5日後、DeepSeek公式は多モーダル画像認識機能のグレーテストを正式に開始し、これにより多モーダル能力が実質的な導入段階に入ったことを示した。今回のアップデートでは、モバイル端末とウェブ版の入力欄に「画像認識モード」のアクセスポイントが追加され、「画像理解機能内側テスト中」という明確な表示が行われ、純粋なテキスト/コードから視覚的インタラクションへの重要な飛躍を果たした。
実測データによると、DeepSeekは基本的な視覚的理解および画描述において優れた性能を発揮している。複雑な人物や環境構図、写真の細部を識別する際には、非常に高い再現性を持つ記述テキストを生成することができる。また、「思考モード」を起動すると、モデルは深い論理的推論能力を示し、文物の視覚的特徴に基づいて正確にその芸術様式と歴史的背景を推定することができる。さらに、画像中の文字情報の抽出と場面判断も業界の主流水準に達している。
しかし、極端な視覚的課題に直面した場合、このモジュールには改善の余地がある。テスト結果によると、モデルは破片化や逆色などのノイズのある画像を処理する際に識別率が制限されている。要素の数え上げや複雑なグラフィック論理推論タスクにおいては、自己対話的な推論の試みを示しているものの、正確さと応答効率においてはまだ向上の余地がある。また、極めて新しい製品情報のカバー範囲は、現在の知識ベースの更新サイクルによって制限されている。
業界分析によると、この機能は現在、メインモデルに搭載された視覚理解モジュールに近い状態であり、マルチモーダルリンクの検証のためにグレーテストが行われている。DeepSeekの視覚パッチの急速な進化とともに、中国製の大規模モデルにおける本格的なマルチモーダル競争の焦点は、「パラメータの規模」から「全シナリオの感知」へと移りつつある。今回の内側テストは、DeepSeekのコア機能の欠点を補完し、その本格的なマルチモーダル大技が最終準備段階に入ったことを示している。
