DeepSeekは本格的な大規模な画像認識モードの内側テストを開始し、この国内の大規模モデルの先鋒が完全に画像とテキストのマルチモーダル相互作用の時代に進出したことを示しています。4月の下位範囲でのグレーゾーンテストに続いて、DeepSeekは5月9日に「画像認識モード」のアクセス権限を大幅に拡大しました。現在、多くのテストアカウントは対話インターフェースで追加された独立したエントリーポイントを通じてこの機能にアクセスできます。システムがまだ「機能の内部テスト中」と表示されているものの、入力ボックス上部に「高速モード」と「エキスパートモード」と並んで配置されていることから、マルチモーダル理解がそのコア製品マトリクスの重要な一部であることが示唆されています。

従来の単純なOCRテキスト抽出とは異なり、DeepSeekの今回のアップデートの核は、深層的な画像認識と意味理解能力です。実際のテスト結果では、このモードは視覚情報の論理的な分解と状況感知を可能にし、ユーザーが画像を直接アップロードすることで複雑なメディア間のインタラクションを実現できます。この動きにより、DeepSeekが以前のマルチモーダル理解分野における空白を埋め、GPT-4oなどの国際的なトップモデルに追いつく過程で実質的な一歩を踏み出しました。
業界の観点から見ると、DeepSeekは非常に高い計算性能とコストパフォーマンスを維持しながら、マルチモーダルの欠点を迅速に補い、国内の大規模モデルの競争焦点が単なるテキスト生成から全体的な「視覚言語連携」へとシフトしていることを反映しています。画像認識機能が全面的に広がるにつれて、DeepSeekは自動化オフィス、産業用ビジョン理解および複雑なグラフ分析などの特定分野でより大きな生産力を発揮する見込みです。このような「文字を読む」から「物を識別する」への変化は、製品のインタラクティブな境界を拡張し、国内の大規模モデル市場がマルチモーダル能力の普及に向けた新たな段階に入るのを加速させるでしょう。
