字節跳動宣佈推出全新多模態模型Vidi,專注於視頻理解與編輯,首版核心能力爲精準的時間檢索功能。據AIbase瞭解,Vidi能夠處理視覺、音頻和文本輸入,支持長達一小時的超長視頻分析,在時間檢索任務上性能超越GPT-4o與Gemini等主流模型。這一突破性技術已在AI社區引發熱烈討論,相關細節通過字節跳動官方渠道與GitHub公開。
核心功能:精準時間檢索與多模態協同
Vidi以其強大的時間檢索與多模態處理能力,爲視頻理解與編輯提供了全新解決方案。AIbase梳理了其主要功能:
時間檢索精準定位:Vidi可根據文本提示或多模態輸入,精確定位視頻中的特定片段(如“找到角色跳舞的30秒片段”),時間分辨率達到秒級,顯著提升內容檢索效率。
超長視頻支持:支持處理長達一小時的視頻,突破傳統模型在長序列視頻理解上的內存與計算瓶頸,適合分析電影、直播或會議錄像。
多模態輸入處理:整合視覺(幀序列)、音頻(語音、背景音)與文本(字幕、描述),實現跨模態語義理解,如根據音頻情緒定位視頻高光時刻。
高效編輯能力:支持基於時間檢索的視頻片段剪輯、重組與標註,簡化內容創作與後期製作流程。
AIbase注意到,社區測試顯示,Vidi在處理Youku-mPLUG數據集(10M視頻-語言對)時,能快速定位複雜場景片段,超越GPT-4o在ActivityNet時間檢索任務上的表現(準確率提升約10%)。
技術架構:創新時間編碼與多模態融合
Vidi基於字節跳動的VeOmni框架,結合視頻專用大語言模型(Vid-LLM)與時間增強的變換器架構。AIbase分析,其核心技術包括:
時間增強變換器:通過時間嵌入(Temporal Embedding)與分層注意力機制,優化長序列視頻的時空關係建模,確保高精度時間檢索。
多模態編碼器:採用Chat-UniVi的統一視覺表示,融合視頻幀、音頻波形與文本嵌入,支持跨模態語義對齊,減少信息丟失。
高效推理優化:利用字節的ByteScale分佈式訓練系統,結合4-bit量化與動態分塊處理,顯著降低超長視頻處理的計算成本。
數據集驅動:訓練數據包括Youku-mPLUG(10M視頻-語言對)與WebVid-10M,覆蓋多語言與多樣化場景,提升模型泛化能力。
AIbase認爲,Vidi的時間檢索能力得益於其創新的PHD-CSWA(Chunk-wise Sliding Window Attention)機制,與字節此前發佈的高效預訓練長度縮放技術一脈相承,特別適合長序列任務。
應用場景:從內容創作到智能分析
Vidi的多模態能力與超長視頻支持爲其開闢了廣泛的應用場景。AIbase總結了其主要用途:
內容創作與剪輯:爲視頻創作者提供精準片段定位與自動剪輯工具,簡化短視頻、Vlog或電影預告片製作,如快速提取直播中的高光時刻。
智能視頻分析:支持企業分析長篇會議錄像或監控視頻,自動標註關鍵事件(如“討論預算的片段”),提升信息檢索效率。
教育與培訓:解析教學視頻,定位特定知識點或互動片段,生成定製化學習片段,適合在線教育平臺。
娛樂與推薦:優化TikTok等平臺的視頻推薦系統,通過語義與時間分析提升內容匹配精度,增強用戶體驗。
社區反饋顯示,Vidi在處理長篇中文視頻(如綜藝節目)時表現尤爲出色,其多語言支持(覆蓋8種語言)進一步擴大了全球應用潛力。AIbase觀察到,Vidi與字節的Doubao模型生態無縫集成,爲商業化部署提供了堅實基礎。
上手指南:開源支持,開發者友好
AIbase瞭解到,Vidi的代碼與預訓練模型將在GitHub開源(預計github.com/ByteDance-Seed/Vidi),支持PyTorch與VeOmni框架。開發者可按以下步驟快速上手:
克隆Vidi倉庫,安裝Python3.9+與NVIDIA CUDA依賴;
下載Youku-mPLUG或WebVid-10M數據集,配置時間檢索任務;
使用提供的vidi.yaml腳本運行推理,輸入多模態提示(如“定位視頻中演講者提到AI的部分”);
導出定位片段或編輯結果,支持MP4或JSON格式。
社區提供的Docker鏡像與Hugging Face集成簡化了部署流程,推薦硬件爲NVIDIA A100(40GB)或RTX3090(24GB)。AIbase建議開發者優先測試Vidi在ActivityNet或EgoSchema數據集上的時間檢索功能,以驗證其性能優勢。
性能對比:超越GPT-4o與Gemini
Vidi在時間檢索任務上的性能表現尤爲突出。AIbase整理了其與主流模型的對比:
時間檢索準確率:在ActivityNet數據集上,Vidi的準確率較GPT-4o高約10%,較Gemini1.5Pro高約12%,尤其在長視頻(>30分鐘)中表現穩定。
處理速度:Vidi處理一小時視頻的平均時間爲5-7分鐘(128GPUs),優於GPT-4o的8-10分鐘,得益於分塊注意力機制。
多模態理解:Vidi在Youku-mPLUG的視頻問答任務中,綜合得分(結合視覺、音頻、文本)超越Gemini1.5Pro約5%,與GPT-4o相當。
社區分析認爲,Vidi的性能優勢源於其專注於視頻領域的優化,而非通用的多模態設計,特別是在時間感知與長序列處理上更具針對性。AIbase預測,Vidi的開源將推動Vid-LLM領域的進一步競爭。
項目地址:https://bytedance.github.io/vidi-website/