字節跳動發佈“震動級”AI模型 Vidi2:120億參數，讓視頻編輯徹底自動化

字節跳動剛剛發佈了其最新的多模態大語言模型 Vidi2，一個擁有120億參數、專用於視頻理解的AI模型。該模型能夠處理數小時長的原始素材，理解其中的故事脈絡，並根據簡單提示生成完整的TikTok短視頻或電影片段，被視爲對現有視頻編輯行業的重大顛覆。

突破:精細時空定位（STG）

Vidi2的關鍵在於其視頻理解能力。新模型新增了精細的時空定位（STG）功能，能夠同時識別視頻中的時間戳和目標對象的邊界框。給定文本查詢，Vidi2不僅能找到對應的時間段，還能在這些時間範圍內準確標記出具體物體的位置。

在技術細節上:

時空定位:模型返回“管道”（時間索引邊界框），以一秒粒度跟蹤指定對象和人物，直接支持編輯，例如在人羣中跟蹤特定人物。
技術架構:Vidi2升級使用 Gemma-3 作爲主幹網絡，並輔以重新設計的自適應標記壓縮技術，確保在處理長視頻時保持效率而不丟失關鍵細節。

性能領跑:超長視頻理解優勢明顯

Vidi2在行業基準測試中表現卓越。在用於開放式時間檢索的 VUE-TR-V2基準上，其總體 IoU 達到 48.75，尤其在**超長視頻（超過1小時）**上的表現比商業模型領先 17.5個百分點。在定位任務（VUE-STG）上，模型也取得了vIoU32.57和tIoU53.19的最佳性能。

從模型到產品:TikTok的“智能剪輯師”

基於 Vidi2的強大能力，字節跳動已開發出多個實用的自動化編輯工具，包括:高光提取、故事感知剪切、內容感知重構圖和多視角切換，且這些功能都可以在消費級硬件上運行。

TikTok應用:相關技術已應用於 TikTok的Smart Split 功能，能夠自動剪輯、重構圖、添加字幕，並將長視頻轉錄成適合TikTok的短片段。
AI Outline:該工具能將簡單提示或熱門話題轉化爲結構化的視頻標題、開頭和大綱。

AIbase 評論指出，Vidi2的發佈和字節跳動巨大的 **TikTok（10億日活用戶）**數據平臺優勢，使其獲得了海量視頻數據進行訓練和實時反饋優化，爲原生的AI公司帶來了巨大挑戰。隨着大平臺公司的技術飛輪轉動起來，傳統AI公司可能面臨更大的競爭壓力。

目前 Vidi2仍處於研究階段，官方表示 Demo 即將發佈。

地址:https://www.alphaxiv.org/abs/2511.19529

字節跳動發佈“震動級”AI模型 Vidi2:120億參數，讓視頻編輯徹底自動化

突破:精細時空定位（STG）

性能領跑:超長視頻理解優勢明顯

從模型到產品:TikTok的“智能剪輯師”

相關推薦

中國AI視頻生成模型異軍突起，創作者贊其“更自由”

《金融時報》認證：中國視頻生成AI領先美國！

字節跳動加碼資本開支，AI 產業迎來投資熱潮！

騰訊發佈OpenSearch-VL：開源多模態深度搜索 agent 的“全家桶”方案

字節跳動推出全新3D 生成模型 Seed3D2.0，技術躍升至 SOTA 水平