字節跳動AI視頻革命:Vidi2正式發佈
中國科技巨頭字節跳動近日重磅推出全新人工智能視頻編輯器Vidi2,這款工具以其革命性的視頻理解和創作能力震驚業界。據最新技術評估,Vidi2在視頻理解深度上已超越谷歌Gemini3Pro,成爲當前最先進的視頻多模態模型。該模型專爲長時序視頻設計,能夠處理數小時海量素材,並基於簡單提示詞自動生成腳本、TikTok短視頻或完整電影,極大降低了視頻創作門檻。
Vidi2的發佈標誌着字節跳動在AI多模態領域邁出關鍵一步。作爲TikTok和抖音的母公司,字節跳動長期深耕短視頻生態,此次工具的推出將進一步賦能全球內容創作者,推動AI從輔助工具向核心生產力轉型。

核心技術突破:時空定位與端到端編輯
Vidi2的核心在於其細粒度時空定位能力,能夠精準捕捉視頻中特定動作和對象的出現位置與時間段。傳統視頻AI往往難以“閱讀”完整長視頻,導致事件起始、結束及參與主體識別失準,而Vidi2通過多模態編碼器和語言模型骨幹,融合文本、視覺幀和音頻輸入,實現像素級分析。
具體而言,用戶只需輸入文本查詢,模型即可返回精確的起止時間戳及目標對象的邊界框軌跡(bounding box tube)。例如,在一段數小時的紀錄片中,查詢“貓咪跳躍場景”,Vidi2不僅定位秒級片段,還能自動提取並剪輯成獨立短片。該模型採用自適應視覺令牌壓縮技術,確保內存高效利用,即使面對極短或極長剪輯,也能保持關鍵上下文完整。
在基準測試中,Vidi2在VUE-STG(時空管基準)和VUE-TR-V2(時序檢索基準)上大幅領先Gemini3Pro和GPT-5等商用模型。視頻問答任務中,其準確率提升顯著,特別是在情節感知自動編輯環節,支持一鍵裁剪、添加字幕、重構故事圖譜等功能。字節跳動團隊表示,該模型訓練數據融合合成剪輯與海量真實視頻,確保生成內容高保真且流暢自然。
應用場景創新:從素材搜索到智能腳本生成
Vidi2不僅僅是編輯器,更是智能創作助手。其端到端工作流讓視頻生產從人工拉軌轉向自然語言驅動:輸入主題提示,模型自動輸出標題、鉤子、分鏡腳本,並生成成品視頻。創作者可輕鬆將長素材轉化爲TikTok豎屏短片,或擴展爲電影級敘事,適用於新聞、廣告、娛樂等領域。
想象一下,紀錄片導演上傳數小時原始鏡頭,只需提示“聚焦環保主題的勵志故事”,Vidi2即生成完整腳本並剪輯大綱。這不僅加速了迭代過程,還提升了創意表達的包容性。即使非專業用戶,也能通過簡單對話實現專業級輸出。
行業影響與未來展望
Vidi2的問世加劇了全球AI視頻賽道的競爭。字節跳動藉此鞏固其在多模態AI的前沿地位,此前其MagicVideo系列已展現文本到視頻生成的潛力,而Vidi2則聚焦理解與編輯閉環。專家預測,該工具將重塑內容產業生態,降低生產成本,推動短視頻向長形式轉型。
目前,Vidi2已在arXiv預印本發佈,GitHub倉庫開放源代碼,演示版即將上線。字節跳動強調,將持續優化模型以支持更多語言和場景,助力AI普惠創作。
