谷歌的旗艦級視頻生成模型 Veo3 現已通過 Gemini API 向開發者開放,提供文本轉視頻功能,並支持同步音頻生成。此舉標誌着 AI 視頻製作邁入新階段,但也伴隨着更高的成本。

Veo3 是谷歌首款能通過單個文本提示生成高分辨率視頻並同步生成對話、音樂和音效的模型。目前,Gemini API 僅限於文本轉視頻功能,但谷歌表示,Gemini 應用中已上線的圖像轉視頻支持也即將推出。

QQ20250718-085316.png

對於希望將高級視頻生成功能集成到自身應用或構建可投入生產原型的開發者而言,此次 API 集成提供了強大助力。Google AI Studio 爲開發者提供了 SDK 模板和入門應用,以幫助他們快速上手。訪問該 API 需要一個已啓用計費功能的活躍 Google Cloud 項目。谷歌透露,Veo3已在 Gemini 應用、Flow 和 Vertex AI 中被使用了數百萬次。

然而,Veo3 的價格使其成爲 AI 視頻生成領域中相對昂貴的選項之一。通過 Gemini API 訪問 Veo3僅在 Google Cloud 付費套餐中可用。以720p、24fps 視頻(含16:9格式音頻)爲例,定價爲 每秒0.75美元,比不含音頻的 Veo2貴25美分。這意味着,一段八秒的視頻需要6美元,而一段五分鐘的視頻則高達225美元。考慮到通常需要多次嘗試才能達到理想效果,實際成本可能會迅速增加。例如,如果需要十倍的素材量才能製作出五分鐘的可用視頻,總成本可能達到2,250美元。儘管如此,谷歌可能認爲在特定用例中,這仍比傳統的視頻製作更具成本效益。谷歌還宣佈了“Veo3Fast”模式,該模式速度更快、價格更低,但目前尚未在 API 中提供。

目前,Veo3的應用主要集中在專業領域。例如,Cartwheel 利用 Veo3將2D 視頻轉換爲逼真的3D 角色動畫,並將其生成的動作映射到客戶項目的裝配模型上。遊戲工作室 Volley 也使用 Veo3爲其角色扮演遊戲《Wit's End》製作過場動畫,從而讓開發者能夠快速嘗試新的故事創意和視覺效果。這些案例表明,谷歌目前更側重於專業級應用,儘管不排除有其他公司在幕後使用 Veo3但尚未公開。