在WAIC2025世界人工智能大會上,生數科技重磅發佈Vidu Q1"參考生視頻"功能,通過算法創新徹底顛覆傳統視頻製作流程,爲視頻生成領域帶來突破性進展。
告別分鏡,一鍵直出視頻
"參考生視頻"最大亮點在於跳過複雜的前期分鏡製作環節。用戶只需上傳人物、道具、場景等參考圖,配合文字提示,即可直接生成完整視頻素材。製作流程從傳統的"分鏡生成——視頻生成——剪輯——成片"簡化爲"參考圖——視頻生成——剪輯——成片"。
例如,輸入"諸葛亮與丘吉爾、拿破崙在會議室討論"的提示詞,上傳三位歷史人物參考圖和會議室場景圖,系統即可生成三人同框對話的完整視頻。
破解商業化核心難題
該功能核心優勢在於解決視頻模型商業化的關鍵瓶頸——主體一致性問題。Vidu Q1參考生目前支持最多七個主體同時輸入並保持一致,據生數科技表示,這已能滿足絕大部分創作場景需求。
生數科技CEO駱怡航表示,這種通用創作方式將更好地服務廣告、動漫、影視、文旅、教育等多元商業場景,實現從線下拍攝到線上AI創作的本質轉變。
技術路徑與產業導向
生數科技採用U-ViT架構,結合擴散模型與Transformer技術,並在此基礎上優化算法模塊。Vidu模型內置多模態理解能力,已成功應用於視頻生成。
駱怡航強調,團隊以產業落地爲主要導向,暫未將理解與生成一體化作爲優先級,"行業客戶更關心內容效果而非技術路線"。
拓展具身智能新領域
7月25日,清華大學與生數科技聯合發佈具身智能模型Vidar,通過"視頻大模型+具身智能"路徑實現低成本、少樣本泛化。
駱怡航解釋,視頻模型與具身智能在本質上都處理時空信息,採用相同的輸入決策邏輯。團隊基於Vidu視頻大模型,通過少量機器人實操視頻訓練,可將虛擬視頻轉化爲對應機械臂動作,有效解決傳統VLA路線的數據稀缺問題。
目前,Vidu仍以提升視頻生成能力爲最高優先級,將具身智能作爲持續探索方向,爲該領域開啓潛在商業市場。