在近日的一檔播客節目中,谷歌 DeepMind 的首席執行官米斯・哈薩比斯(Demis Hassabis)表示,谷歌計劃最終將其 Gemini 人工智能模型與視頻生成模型 Veo 結合,以提升 Gemini 對物理世界的理解。他指出,Gemini 從一開始就是爲了多模態設計的,目的是實現一個 “通用數字助手”,這種助手能夠在現實世界中真正幫助用戶。

谷歌大模型Gemini

哈薩比斯提到,AI 行業正逐漸朝着 “全能” 模型的方向發展,這些模型能夠理解和合成多種媒體形式。例如,谷歌最新的 Gemini 模型不僅可以生成文本和圖像,還能生成音頻。而 OpenAI 在 ChatGPT 中的默認模型也已經能夠原生創建圖像。此外,亞馬遜也宣佈將在今年推出一款 “任何到任何” 的模型。

實現這些全能模型需要大量的訓練數據,包括圖像、視頻、音頻和文本等。哈薩比斯暗示,Veo 模型的訓練數據主要來自谷歌擁有的 YouTube 平臺。他表示,通過觀看大量 YouTube 視頻,Veo2能夠學習到世界的物理規律。

谷歌此前曾表示,其模型 “可能” 會根據與 YouTube 創作者的協議,從 “部分” YouTube 內容中進行訓練。報告顯示,谷歌去年擴展了其服務條款,以便能夠獲取更多數據來訓練其人工智能模型。這一策略表明,谷歌正在積極尋求提高其 AI 技術的能力,以滿足市場需求。

隨着人工智能技術的快速發展,谷歌的這一計劃也反映了業界對多模態 AI 的重視和未來可能的發展方向。結合 Gemini 和 Veo 的模型,將有助於爲用戶提供更豐富的互動體驗,使人工智能能夠更好地融入日常生活中。

劃重點:

- 🤖 谷歌計劃將 Gemini 與 Veo AI 模型結合,以提升對物理世界的理解。

- 🎥 Veo 模型的訓練數據主要來自 YouTube,利用大量視頻學習物理規律。

- 🌐 AI 行業正在向多模態 “全能” 模型發展,以滿足日益增長的市場需求。