快手近日將其視頻生成器Kling升級至2.6版本,推出語音控制和動作控制兩大核心功能,爲AI視頻生成領域帶來突破性進展。此次更新不僅實現了原生音頻生成,還大幅提升了複雜動作的處理精度。

QQ20251222-095453.png

語音控制:從音效到個性化聲音定製

Kling2.6的語音控制功能建立在同步視頻音頻生成技術基礎上,與Google Veo3和Sora2類似,能夠生成與視頻內容匹配的音效、人聲和音樂。該功能支持說話、對話、旁白、歌唱和說唱等多種人聲類型,並能處理環境噪音和複合場景音效。

更引人注目的是,用戶現在可以上傳自己的聲音訓練模型,或直接上傳音頻文件應用於文本轉視頻創作。這一突破性功能顯著提高了角色一致性——生成視頻中的角色能夠使用明確、可識別的聲音說話,使跨多個視頻片段創建一致角色成爲可能。

Kling AI展示的應用場景涵蓋產品演示、生活方式視頻博客、新聞廣播、體育評論、紀錄片、訪談節目、戲劇短片和音樂表演,甚至包括復調合唱等複雜形式。

動作控制升級:精準捕捉複雜全身動作

第二項重大更新聚焦於動作控制系統的全面升級。據Kling AI介紹,系統現在能夠更精細地捕捉全身動作,即便是武術或舞蹈等快速複雜的動作也能準確處理。

該公司特別強調了兩個傳統AI視頻難點的改進:手部動作現在顯得精準無模糊,面部表情和脣形同步也保持自然。用戶可上傳3至30秒的動作參考片段創建連貫序列,場景細節還可通過文本提示調整。

社交媒體上已涌現大量令人印象深刻的應用案例,顯示AI生成視頻內容正持續增長,創作者正充分利用這一商機,同時也催生了許多富有創意的作品。

QQ20251222-095506.png

價格優勢與市場佈局

Kling2.6除在自有平臺提供服務外,還可通過Fal.ai、Artlist和Media.io等第三方平臺使用。API定價約爲每秒生成視頻0.07至0.14美元,價格根據生成速度、時長和分辨率浮動,在市場上極具競爭力。KlingAI本身採用積分制計費。

12月初,快手還發布了Video O1——號稱"全球首款統一多模態視頻模型",可通過文字指令編輯現有視頻,實現更改主角、天氣或視頻風格等功能。

憑藉這些創新功能,快手在競爭激烈的AI視頻市場中與Google、OpenAI、Runway等西方公司,以及海羅、世達、維都等中國競爭對手展開角逐。值得注意的是,快手運營着與TikTok規模相當的全球最大短視頻平臺之一快手(Kwai),這使其能夠獲取海量音視頻和運動數據,爲訓練視頻模型、實現聲音同步和動作逼真提供了獨特優勢。