谷歌 Gemini 新功能：用戶可通過多張參考圖像引導 AI 視頻生成

近日，谷歌對 Gemini 應用進行了更新，爲用戶提供了全新的 AI 視頻生成控制方式。用戶現在可以在單個視頻提示中上傳多張參考圖像。系統將根據這些圖像及文本生成視頻和音頻，這一新功能使用戶能夠更直接地掌控最終視頻的外觀和聲音。

谷歌此前已在其擴展視頻 AI 平臺 Flow 中測試了這一功能。Flow 不僅支持擴展現有視頻片段和拼接多個場景，還提供了比 Gemini 應用更高的視頻配額。根據谷歌的說法，自10月中旬發佈的 Veo3.1版本相比 Veo3.0在紋理真實感、輸入保真度和音頻質量方面都有顯著提升。

通過這次更新，用戶能夠更靈活地利用 AI 工具，創造出更符合自己需求的內容。多參考圖像的上傳功能，意味着創作者可以在視頻製作中融入更多的個性化元素，爲觀衆提供更豐富的視覺和聽覺體驗。

在當前 AI 技術飛速發展的時代，谷歌的這一舉措展示了其在視頻生成領域的持續創新。隨着用戶需求的多樣化，AI 工具的靈活性和可定製性愈發重要，Gemini 的新功能無疑將吸引更多創作者的關注與使用。

劃重點:
🌟 用戶可上傳多張參考圖像來引導 AI 生成視頻和音頻。
🎥 新功能提升了用戶對視頻最終效果的控制權。
🔊 Veo3.1版本在視頻質量和音頻體驗上相較於前版本有明顯改進。

可靈AI 融資傳聞再起：180 億美元估值背後的資本博弈

快手旗下AI視頻生成平臺“可靈AI”被傳即將完成首輪獨立融資，規模達30億美元，投後估值約180億美元。儘管快手未予置評，該消息已引發市場高度關注。該平臺自2026年5月傳出分拆消息以來，其估值預期始終處於震盪博弈之中。

xAI發佈Grok Imagine Video1.5:一張圖片秒變視頻，直面Google Veo競爭

xAI發佈Grok Imagine Video1.5預覽版，進軍AI視頻生成賽道。該模型可將單張靜態圖片轉換爲短視頻，支持720p分辨率輸出。用戶上傳圖片後，通過文本提示描述鏡頭運動、畫面節奏和氛圍，模型能保留原始圖像細節、光影和風格，生成自然流暢的動態視頻。

字節跳動 Seedance2.5模型將於7月16日全量開放 API