根據谷歌研究部門的最新披露,其視頻生成模型 Veo3 在視覺AI領域取得了突破性進展,被譽爲達到了“GPT-3”時刻。在對 Veo3進行了一系列測試後,研究人員發現,該模型不僅限於視頻生成,還能在無需額外訓練的情況下,自動完成多項複雜的視覺任務。
在用18,384個最簡單的視頻生成任務進行測試時,Veo3展示出驚人的多功能性,包括尋找物體、修復照片、玩迷宮、解決數獨等。具體來說,Veo3能夠:
理解圖像:自動識別圖像中的邊緣、輪廓、物體位置、顏色和形狀等基本視覺元素。
理解物理原理:具備基本的物理認知,例如能夠分辨出哪些物體會漂浮,哪些會下沉,並理解光的反射方式。
進行手動編輯:像“自動版 Photoshop”一樣,Veo3可以執行復雜的圖片編輯任務,如去除背景、添加文字,甚至將照片轉換爲油畫風格。
具備“理性”能力:在面對迷宮圖像時,它能夠自主規劃並繪製出穿過迷宮的路徑。
谷歌研究部門認爲,Veo3的這一突破標誌着視覺AI領域進入了新的發展階段,其通用性和自主任務解決能力堪比自然語言處理領域的GPT-3。
