快手旗下Kling AI於Omni生態周首日發佈2.6版本,首次內置音頻生成,支持中英雙語對白、歌唱與音效同步輸出,實現“文本⇄視頻⇄音頻”一鍵閉環。官方口號“See the Sound, Hear the Visual”直指其多模態同步定位。

技術規格方面,2.6保持10秒1080P高清輸出,每5秒僅需25積分(較前版降30%)。擴散變換器+3D時空聯合注意力架構帶來三項提升:複雜指令遵守率提高15%、跨鏡頭角色一致性達SOTA、對標Seedance1.0盲測勝率285%。

市場層面,Kling2.6將率先在Artlist等專業平臺上線,提供場景擴展與多元素編輯API,面向影視、短劇、廣告及MV製作。快手錶示,2026Q1將推出4K/60fps版本,並開放自定義聲線庫,繼續降低“AI製片”門檻。

行業觀察認爲,音頻同步補齊了AI視頻最後一塊短板,後期剪輯流程有望縮短50%以上。隨着Kling2.6落地,AI創作工具競爭從“畫面”延伸至“聲音”,有聲短視頻或迎來新一輪供給爆發。