DeepSeek 開啓識圖模式灰度測試，多模態視覺理解能力正式落地

在 DeepSeek-V4發佈並引發行業震動僅五天後，DeepSeek 官方正式開啓多模態識圖功能的灰度測試，標誌着其多模態能力進入實質性落地階段。此次更新在移動端與網頁版輸入欄中新增了“識圖模式”入口，並顯著標註“圖片理解功能內測中”，完成了從純文本/代碼向視覺交互的重要跨越。

實測數據顯示，DeepSeek 在基礎視覺理解與畫面描述方面表現優異。在識別複雜人物、環境構圖及攝影細節時，能產出極高還原度的描述文本;在開啓“思考模式”後，模型展現了深度的邏輯推理能力，可根據文物視覺特徵準確推導其藝術風格與歷史背景。此外，其對圖片中文字信息的提取與場景判斷亦達到了行業主流水準。

然而，在面對極端視覺挑戰時，該模塊仍存在優化空間。測試表明，模型在處理碎塊化、反色等抗干擾圖像時識別率受限;在元素計數與複雜圖形邏輯推理任務中，雖然展現了自博弈式的推理嘗試，但在準確率與響應效率上仍有提升餘地。此外，其對極新產品信息的覆蓋仍受限於現有知識庫的更新週期。

行業分析指出，該功能目前更接近於掛載在主幹模型上的視覺理解模塊，旨在通過灰度測試驗證多模態鏈路。隨着 DeepSeek 視覺補丁的快速迭代，國產大模型在原生多模態賽道的競爭重心正從“參數規模”向“全場景感知”轉型。此次內測不僅補齊了 DeepSeek 的核心功能短板，也預示着其原生多模態大招已進入最後籌備期。

文心一言5.1預覽版上線 LMSYS 競技場，目前位列全球第13位

百度文心一言5.1預覽版低調上線國際盲測平臺LMSYS Chatbot Arena，最新數據顯示其在總榜排名第13位。這標誌着百度核心模型進入新一輪快速迭代週期，開始接受全球用戶檢驗。雖然官方未公佈具體參數和架構細節，但基於以往迭代邏輯和競技表現，該版本在語義理解方面預計有所提升。

DeepSeek 開啓識圖模式灰度測試，多模態視覺理解能力正式落地

相關推薦

文心一言5.1預覽版上線 LMSYS 競技場，目前位列全球第13位

爆破 9000 億美元！Anthropic擬在IPO前完成AI史上最高融資

谷歌相冊上線AI衣櫥管家，一鍵提取單品並支持虛擬試穿

SAS推出企業級AI治理工具，全方位管控“智能體”以化解影子AI風險

谷歌相冊發佈 AI 衣櫥規劃功能:支持自動分類、混搭建議及虛擬試穿