在 DeepSeek-V4發佈並引發行業震動僅五天後,DeepSeek 官方正式開啓多模態識圖功能的灰度測試,標誌着其多模態能力進入實質性落地階段。此次更新在移動端與網頁版輸入欄中新增了“識圖模式”入口,並顯著標註“圖片理解功能內測中”,完成了從純文本/代碼向視覺交互的重要跨越。

實測數據顯示,DeepSeek 在基礎視覺理解與畫面描述方面表現優異。在識別複雜人物、環境構圖及攝影細節時,能產出極高還原度的描述文本;在開啓“思考模式”後,模型展現了深度的邏輯推理能力,可根據文物視覺特徵準確推導其藝術風格與歷史背景。此外,其對圖片中文字信息的提取與場景判斷亦達到了行業主流水準。
然而,在面對極端視覺挑戰時,該模塊仍存在優化空間。測試表明,模型在處理碎塊化、反色等抗干擾圖像時識別率受限;在元素計數與複雜圖形邏輯推理任務中,雖然展現了自博弈式的推理嘗試,但在準確率與響應效率上仍有提升餘地。此外,其對極新產品信息的覆蓋仍受限於現有知識庫的更新週期。
行業分析指出,該功能目前更接近於掛載在主幹模型上的視覺理解模塊,旨在通過灰度測試驗證多模態鏈路。隨着 DeepSeek 視覺補丁的快速迭代,國產大模型在原生多模態賽道的競爭重心正從“參數規模”向“全場景感知”轉型。此次內測不僅補齊了 DeepSeek 的核心功能短板,也預示着其原生多模態大招已進入最後籌備期。
