Andrej Karpathy評DeepSeek-OCR論文：圖像輸入可能成爲大語言模型新方向

特斯拉前自動駕駛負責人、OpenAI聯合創始人Andrej Karpathy近日在推特上評論了開源的DeepSeek-OCR論文，提出了一個頗具啓發性的觀點:相比傳統文本輸入，圖像作爲大語言模型（LLM）的輸入形式可能更加高效。這一觀點在AI研究社區引發了關於模型輸入方式未來演進方向的討論。

Karpathy認爲，當前廣泛使用的文本token輸入方式可能既浪費又低效，未來研究或許應該轉向圖像輸入。他從幾個維度闡述了圖像輸入相比文本輸入的潛在優勢。

首先是信息壓縮率的提升。將文本渲染成圖像後，可以用更少的視覺token傳遞更多信息。這是因爲一個圖像patch可以包含多個字符的信息，而在傳統文本tokenization中，每個字符或子詞都需要單獨的token。在處理大規模上下文時，這種壓縮可能顯著提升模型效率，降低計算成本。

其次是信息表達的豐富性。圖像輸入天然支持加粗、顏色、字體大小、佈局等視覺元素，這些格式信息在傳統純文本輸入中要麼丟失，要麼需要通過額外的標記語言（如Markdown）來表示，後者又會增加token消耗。直接使用圖像可以讓模型更自然地理解文檔的視覺結構和強調重點。

第三是注意力機制的優化空間。圖像輸入可以使用雙向注意力機制，而傳統的文本生成任務通常採用自迴歸的因果注意力。雙向注意力能夠讓模型同時關注上下文的所有位置，通常能提供更強的理解能力。這種處理方式避免了自迴歸文本處理的一些固有限制。

Karpathy特別批評了tokenizer（分詞器）的複雜性。他認爲tokenizer是一個非端到端的歷史遺留模塊，引入了許多不必要的複雜性。例如，視覺上相同的字符可能因爲來自不同Unicode編碼而被映射到不同的token，導致模型對看似相同的輸入產生不同的理解。去掉tokenizer直接處理圖像，將使整個系統更加簡潔統一。

從技術實現角度看，Karpathy的觀點建立在視覺編碼器已經相當成熟的基礎上。Vision Transformer等架構已經能夠高效處理圖像輸入，而DeepSeek-OCR等模型證明了視覺到文本的轉換可以達到很高的準確率。將這種能力推廣到所有文本處理任務，在技術上具有可行性。

不過Karpathy也指出了一個不對稱性:雖然用戶輸入可以是圖像，但模型輸出仍需要保持爲文本形式，因爲生成逼真的圖像仍然是一個未完全解決的問題。這意味着即使採用圖像輸入，模型架構仍需要支持文本生成，不能完全摒棄文本處理能力。

這一觀點引發的討論涉及多個層面。從效率角度看，如果圖像輸入確實能提高信息密度，在處理長文檔和大規模上下文時將有明顯優勢。從統一性角度看，圖像輸入可以將文檔理解、OCR、多模態問答等任務統一到同一框架下，簡化模型架構。

但圖像輸入也面臨挑戰。首先是計算成本，雖然信息密度更高，但圖像編碼本身的計算開銷可能抵消部分收益。其次是可編輯性，純文本易於編輯和操作，而圖像形式的"文本"在後續處理中會失去這種靈活性。第三是生態兼容性，現有的大量文本數據和工具鏈都基於字符/token表示，完全轉向圖像輸入需要重建整個生態系統。

從研究方向來看，Karpathy的觀點提示了一個有趣的可能性:隨着視覺模型能力的提升，傳統的"語言模型"可能演變爲更通用的"信息處理模型"，其中文本只是信息的一種呈現形式，而非唯一的輸入表示。這種轉變可能模糊語言模型和多模態模型之間的界限。

DeepSeek-OCR論文成爲這一討論的契機，說明OCR任務已經從單純的字符識別演變爲更深層的文檔理解。如果OCR模型能夠準確理解各種格式和佈局的文本，那麼將所有文本任務都視爲"視覺理解"任務在概念上是合理的。

Karpathy的自嘲——"得控制住不要立刻去開發只支持圖像輸入的聊天機器人"——既表達了對這一想法的興趣，也暗示了實際落地的複雜性。這種激進的架構轉變需要大量實驗驗證，證明其在各種任務上的有效性，同時解決上述提到的各種實際挑戰。

從產業應用角度看，即使圖像輸入最終被證明更優，過渡也會是漸進的。更可能的路徑是混合模式:在需要保留視覺格式信息的場景使用圖像輸入，在需要靈活編輯和組合的場景使用文本輸入。這種混合策略可以兼顧兩種方式的優勢。

總體而言，Karpathy的觀點提出了一個值得深入探索的研究方向，挑戰了文本token作爲語言模型標準輸入的固有假設。無論這一願景是否完全實現，它都爲思考模型輸入表示的優化提供了新的視角，可能催生新一代更高效、更統一的AI架構。

Andrej Karpathy評DeepSeek-OCR論文：圖像輸入可能成爲大語言模型新方向

相關推薦

腦機接口產業化加速：中國市場規模 2027 年將達55. 8 億元

Kimi For Coding 會員計劃推出全新增值權益，提升開發體驗

AI數據中心公司Crusoe完成13. 8 億美元股權融資，估值突破 100 億美元

EA與Stability AI合作:將AI融入遊戲開發，加速內容創作

Opera Neon 瀏覽器推出深度研究 Agent“ODRA”