字節跳動Vidi2重磅來襲！AI視頻編輯“秒殺”Gemini 3 Pro，小時級素材一鍵變大片

字節跳動AI視頻革命:Vidi2正式發佈

中國科技巨頭字節跳動近日重磅推出全新人工智能視頻編輯器Vidi2，這款工具以其革命性的視頻理解和創作能力震驚業界。據最新技術評估，Vidi2在視頻理解深度上已超越谷歌Gemini3Pro，成爲當前最先進的視頻多模態模型。該模型專爲長時序視頻設計，能夠處理數小時海量素材，並基於簡單提示詞自動生成腳本、TikTok短視頻或完整電影，極大降低了視頻創作門檻。

Vidi2的發佈標誌着字節跳動在AI多模態領域邁出關鍵一步。作爲TikTok和抖音的母公司，字節跳動長期深耕短視頻生態，此次工具的推出將進一步賦能全球內容創作者，推動AI從輔助工具向核心生產力轉型。

核心技術突破:時空定位與端到端編輯

Vidi2的核心在於其細粒度時空定位能力，能夠精準捕捉視頻中特定動作和對象的出現位置與時間段。傳統視頻AI往往難以“閱讀”完整長視頻，導致事件起始、結束及參與主體識別失準，而Vidi2通過多模態編碼器和語言模型骨幹，融合文本、視覺幀和音頻輸入，實現像素級分析。

具體而言，用戶只需輸入文本查詢，模型即可返回精確的起止時間戳及目標對象的邊界框軌跡（bounding box tube）。例如，在一段數小時的紀錄片中，查詢“貓咪跳躍場景”，Vidi2不僅定位秒級片段，還能自動提取並剪輯成獨立短片。該模型採用自適應視覺令牌壓縮技術，確保內存高效利用，即使面對極短或極長剪輯，也能保持關鍵上下文完整。

在基準測試中，Vidi2在VUE-STG（時空管基準）和VUE-TR-V2(時序檢索基準)上大幅領先Gemini3Pro和GPT-5等商用模型。視頻問答任務中，其準確率提升顯著，特別是在情節感知自動編輯環節，支持一鍵裁剪、添加字幕、重構故事圖譜等功能。字節跳動團隊表示，該模型訓練數據融合合成剪輯與海量真實視頻，確保生成內容高保真且流暢自然。

應用場景創新:從素材搜索到智能腳本生成

Vidi2不僅僅是編輯器，更是智能創作助手。其端到端工作流讓視頻生產從人工拉軌轉向自然語言驅動:輸入主題提示，模型自動輸出標題、鉤子、分鏡腳本，並生成成品視頻。創作者可輕鬆將長素材轉化爲TikTok豎屏短片，或擴展爲電影級敘事，適用於新聞、廣告、娛樂等領域。

想象一下，紀錄片導演上傳數小時原始鏡頭，只需提示“聚焦環保主題的勵志故事”，Vidi2即生成完整腳本並剪輯大綱。這不僅加速了迭代過程，還提升了創意表達的包容性。即使非專業用戶，也能通過簡單對話實現專業級輸出。

行業影響與未來展望

Vidi2的問世加劇了全球AI視頻賽道的競爭。字節跳動藉此鞏固其在多模態AI的前沿地位，此前其MagicVideo系列已展現文本到視頻生成的潛力，而Vidi2則聚焦理解與編輯閉環。專家預測，該工具將重塑內容產業生態，降低生產成本，推動短視頻向長形式轉型。

目前，Vidi2已在arXiv預印本發佈，GitHub倉庫開放源代碼，演示版即將上線。字節跳動強調，將持續優化模型以支持更多語言和場景，助力AI普惠創作。

字節跳動Vidi2重磅來襲！AI視頻編輯“秒殺”Gemini 3 Pro，小時級素材一鍵變大片

相關推薦

字節跳動推出全新3D 生成模型 Seed3D2.0，技術躍升至 SOTA 水平

字節跳動啓動前沿技術人才校招，面向全球博士生開放多個AI方向

字節跳動啓動首輪“豆包股”回購，漲幅達30% 強化 AI 人才激勵

字節跳動迴應“億元年薪”招募 DeepSeek 研究員傳聞

榮耀接洽字節“豆包手機”合作，系統級AI整合或加速推進