告別分鏡製作!生數科技Vidu Q1"參考生"重塑視頻製作流程

在WAIC2025世界人工智能大會上，生數科技重磅發佈Vidu Q1"參考生視頻"功能，通過算法創新徹底顛覆傳統視頻製作流程，爲視頻生成領域帶來突破性進展。

告別分鏡，一鍵直出視頻

"參考生視頻"最大亮點在於跳過複雜的前期分鏡製作環節。用戶只需上傳人物、道具、場景等參考圖，配合文字提示，即可直接生成完整視頻素材。製作流程從傳統的"分鏡生成——視頻生成——剪輯——成片"簡化爲"參考圖——視頻生成——剪輯——成片"。

例如，輸入"諸葛亮與丘吉爾、拿破崙在會議室討論"的提示詞，上傳三位歷史人物參考圖和會議室場景圖，系統即可生成三人同框對話的完整視頻。

擬人化兔子吹笛子動漫電影

破解商業化核心難題

該功能核心優勢在於解決視頻模型商業化的關鍵瓶頸——主體一致性問題。Vidu Q1參考生目前支持最多七個主體同時輸入並保持一致，據生數科技表示，這已能滿足絕大部分創作場景需求。

生數科技CEO駱怡航表示，這種通用創作方式將更好地服務廣告、動漫、影視、文旅、教育等多元商業場景，實現從線下拍攝到線上AI創作的本質轉變。

技術路徑與產業導向

生數科技採用U-ViT架構，結合擴散模型與Transformer技術，並在此基礎上優化算法模塊。Vidu模型內置多模態理解能力，已成功應用於視頻生成。

駱怡航強調，團隊以產業落地爲主要導向，暫未將理解與生成一體化作爲優先級，"行業客戶更關心內容效果而非技術路線"。

拓展具身智能新領域

7月25日，清華大學與生數科技聯合發佈具身智能模型Vidar，通過"視頻大模型+具身智能"路徑實現低成本、少樣本泛化。

駱怡航解釋，視頻模型與具身智能在本質上都處理時空信息，採用相同的輸入決策邏輯。團隊基於Vidu視頻大模型，通過少量機器人實操視頻訓練，可將虛擬視頻轉化爲對應機械臂動作，有效解決傳統VLA路線的數據稀缺問題。

目前，Vidu仍以提升視頻生成能力爲最高優先級，將具身智能作爲持續探索方向，爲該領域開啓潛在商業市場。

字節跳動宣佈Coze的兩大核心項目正式開源：Coze Studio和Coze Loop

字節跳動宣佈開源AI Agent開發平臺Coze兩大核心項目Coze Studio和Coze Loop。Coze Studio是可視化開發平臺，支持拖拽式工作流編排；Coze Loop專注AI Agent全生命週期管理。此次開源採用Apache 2.0協議，旨在降低AI開發門檻，滿足企業私有化部署需求。項目優勢包括低門檻開發、靈活部署，但存在插件生態有限等不足。業內認爲這是AI Agent領域的重要里程碑，將推動行業創新發展。

商湯科技“悟能”具身智能平臺亮相WAIC 2025

商湯科技攜“悟能”具身智能平臺重磅登場，爲智能終端領域帶來全新變革力量。 “悟能”具身智能平臺以商湯具身世界模型爲核心引擎，商湯大裝置則爲其提供端側和雲側的堅實算力支撐。憑藉這一強大組合，該平臺能夠賦予機器人、智能設備卓越的感知、視覺導航以及多模態交互能力，推動智能終端朝着更高層次的自主化與智能化大步邁進。

京東正式宣佈旗下大模型品牌升級爲JoyAI

在2025年世界人工智能大會（WAIC）期間，京東集團宣佈將其大模型品牌升級爲JoyAI，並展示了覆蓋零售、物流、工業、健康等多場景的AI解決方案及附身智能“天團”，推動AI技術從實驗室走向產業深度應用。此次升級的JoyAI大模型體系支持3B到750B全尺寸模型，具備語言、語音、圖像、視頻、數字人等多模態交互能力。通過動態分層蒸餾、跨領域數據治理等技術，其推理效率平均提升30%，訓練成本降低70%，性能達到行業一流水平。在零售領域，京東立影“秒搭”平臺可3分鐘生成3D內容，京點點AIGC平臺實現商品圖、文案、視頻的快速生成，已服務超百萬商家;推出的高商業可用數字人具備逼真形象與自然動作，情感表達與場景適配能力超越80%真人主播，支持24小時不間斷直播，成本僅爲真人直播的十分之一，

騰訊混元3D世界模型正式發佈並開源

在2025年7月27日舉辦的2025世界人工智能大會騰訊論壇上，騰訊公司正式發佈了混元3D世界模型1.0版本，並宣佈該模型將全面開源。這一舉措標誌着業界首個支持沉浸漫遊、交互與仿真的開源世界生成模型誕生，爲遊戲開發、虛擬現實（VR）及數字內容創作等領域開闢了全新的可能性。

騰訊全面展示AI時代產品應用圖，發力3D世界模型與具身智能平臺Tairos

騰訊在2025世界人工智能大會發布"1+3+N"AI全景體系，以混元大模型爲核心，推出混元3D世界模型、具身智能平臺Tairos等創新技術。該體系包含三大平臺：B/C端智能體開發平臺、機器人領域的具身智能平臺，以及覆蓋多行業的AI應用矩陣，全面展示騰訊AI戰略升級。通過核心模型驅動與多元應用結合，爲AI產業化提供完整解決方案。