近日,DeepMind 在其最新論文中提出了一個顛覆性的概念 ——“幀鏈”(CoF,chain-of-frames),這標誌着視頻生成模型的發展又邁出了重要一步。這個概念與之前的 “鏈式思維”(CoT)類似,後者讓語言模型能夠進行符號推理,而 “幀鏈” 則使得視頻模型能夠在時間和空間上進行推理,彷彿賦予了視頻生成模型一種獨立的思維能力。
在論文中,DeepMind 的研究團隊提出了一個大膽的想法:視頻生成模型是否能像當前的大語言模型(LLM)一樣,具備通用的視覺理解能力,能夠處理各種視覺任務而不需專門訓練?目前,機器視覺領域仍在傳統階段,各種任務需要不同的模型來處理,例如物體分割、物體檢測等,每次換任務都要重新調教模型。

爲了驗證這個想法,研究團隊使用了一種簡單粗暴的方法:只給模型提供一個初始圖像和一段文字指令,看看它能否生成一個720p 分辨率、時長8秒的視頻。這種方法與大語言模型通過提示進行任務的方式類似,目的是測試模型的原生通用能力。
結果顯示,DeepMind 的 Veo3模型在多個經典視覺任務上表現優異,顯示出它具備感知能力、建模能力和操控能力。更令人驚訝的是,它在進行跨時空視覺推理時表現出色,成功規劃了一系列路徑,從而能夠解決複雜的視覺難題。

總體來看,DeepMind 團隊總結了以下三大核心結論:
普遍適應性強:Veo3能夠解決許多未接受專門訓練的任務,展現出強大的通用能力。
視覺推理初現雛形:通過分析生成的視頻,Veo3顯示出了類似於 “幀鏈” 的視覺推理能力,逐步建立起對視覺世界的理解。
快速發展趨勢明顯:儘管特定任務模型表現更優,Veo3的能力正在迅速提升,預示着未來可能出現更強大的通用視覺模型。
未來,DeepMind 認爲,通用的視頻模型將可能取代專用模型,就像早期的 GPT-3最終成爲強大的基礎模型一樣。隨着成本的逐步降低,視頻生成模型的廣泛應用指日可待,預示着機器視覺的新時代正在向我們走來。
論文地址:https://papers-pdfs.assets.alphaxiv.org/2509.20328v1.pdf
