字节跳动AI视频革命:Vidi2正式发布

中国科技巨头字节跳动近日重磅推出全新人工智能视频编辑器Vidi2,这款工具以其革命性的视频理解和创作能力震惊业界。据最新技术评估,Vidi2在视频理解深度上已超越谷歌Gemini3Pro,成为当前最先进的视频多模态模型。该模型专为长时序视频设计,能够处理数小时海量素材,并基于简单提示词自动生成脚本、TikTok短视频或完整电影,极大降低了视频创作门槛。

Vidi2的发布标志着字节跳动在AI多模态领域迈出关键一步。作为TikTok和抖音的母公司,字节跳动长期深耕短视频生态,此次工具的推出将进一步赋能全球内容创作者,推动AI从辅助工具向核心生产力转型。

image.png

核心技术突破:时空定位与端到端编辑

Vidi2的核心在于其细粒度时空定位能力,能够精准捕捉视频中特定动作和对象的出现位置与时间段。传统视频AI往往难以“阅读”完整长视频,导致事件起始、结束及参与主体识别失准,而Vidi2通过多模态编码器和语言模型骨干,融合文本、视觉帧和音频输入,实现像素级分析。

具体而言,用户只需输入文本查询,模型即可返回精确的起止时间戳及目标对象的边界框轨迹(bounding box tube)。例如,在一段数小时的纪录片中,查询“猫咪跳跃场景”,Vidi2不仅定位秒级片段,还能自动提取并剪辑成独立短片。该模型采用自适应视觉令牌压缩技术,确保内存高效利用,即使面对极短或极长剪辑,也能保持关键上下文完整。

在基准测试中,Vidi2在VUE-STG(时空管基准)和VUE-TR-V2(时序检索基准)上大幅领先Gemini3Pro和GPT-5等商用模型。视频问答任务中,其准确率提升显著,特别是在情节感知自动编辑环节,支持一键裁剪、添加字幕、重构故事图谱等功能。字节跳动团队表示,该模型训练数据融合合成剪辑与海量真实视频,确保生成内容高保真且流畅自然。

应用场景创新:从素材搜索到智能脚本生成

Vidi2不仅仅是编辑器,更是智能创作助手。其端到端工作流让视频生产从人工拉轨转向自然语言驱动:输入主题提示,模型自动输出标题、钩子、分镜脚本,并生成成品视频。创作者可轻松将长素材转化为TikTok竖屏短片,或扩展为电影级叙事,适用于新闻、广告、娱乐等领域。

想象一下,纪录片导演上传数小时原始镜头,只需提示“聚焦环保主题的励志故事”,Vidi2即生成完整脚本并剪辑大纲。这不仅加速了迭代过程,还提升了创意表达的包容性。即使非专业用户,也能通过简单对话实现专业级输出。

行业影响与未来展望

Vidi2的问世加剧了全球AI视频赛道的竞争。字节跳动借此巩固其在多模态AI的前沿地位,此前其MagicVideo系列已展现文本到视频生成的潜力,而Vidi2则聚焦理解与编辑闭环。专家预测,该工具将重塑内容产业生态,降低生产成本,推动短视频向长形式转型。

目前,Vidi2已在arXiv预印本发布,GitHub仓库开放源代码,演示版即将上线。字节跳动强调,将持续优化模型以支持更多语言和场景,助力AI普惠创作。