苹果公司近期推出了其最新的视频生成模型 STARFlow-V,该模型在技术上与市场上的竞争对手如 Sora、Veo 和 Runway 存在明显差异。STARFlow-V 的设计重点在于增强长视频片段的稳定性,它采用了 “归一化流” 技术,而不是当前主流的扩散模型。

苹果公司表示,STARFlow-V 是首个在视觉质量和生成速度上能够与扩散模型相媲美的产品,尽管其输出分辨率为640×480像素,并且以每秒16帧的速度生成。与扩散模型通过多次迭代逐步去噪声的方式不同,STARFlow-V 通过学习随机噪声与复杂视频数据之间的直接数学变换,在单次训练中完成视频生成,极大提高了训练效率,减少了步骤生成时可能出现的错误。
该系统能够灵活处理多种任务,包括标准的文本转视频、图像转视频(以输入图像作为起始帧)以及视频编辑等功能。针对超过训练长度的视频,STARFlow-V 采用了滑动窗口技术,生成一个片段后保留最后几帧的上下文,并继续生成。然而,演示片段的时间变化显示出有限的多样性。
在生成长序列时,通常面临逐帧生成导致的错误累积问题。为了解决这个问题,STARFlow-V 采用了双重架构,一部分负责跨帧的时间序列管理,另一部分则专注于单帧的细节优化。为了稳定优化过程,苹果在训练时加入了一定量的噪声,尽管这可能导致视频略显颗粒,但并行的 “因果去噪网络” 会在保留运动一致性的同时去除残余噪声。
在训练过程中,苹果使用了7000万对文本 - 视频数据,结合了400万对文本 - 图像数据,利用语言模型将视频描述扩展为九种不同变体。经过几周的训练,模型的参数从30亿增加到70亿,并不断提高分辨率和视频长度。
尽管 STARFlow-V 在 VBench 基准测试中的得分为79.7,略逊于一些领先的扩散模型,但其在自回归模型中的表现依然优异,展现出在空间关系和人类表现方面的显著优势。未来,苹果将继续致力于提高计算速度、优化模型和强调物理准确性的训练数据。
划重点:
🌟 STARFlow-V 使用归一化流技术,提升长视频片段生成的稳定性和效率。
⚙️ 该模型支持多种视频生成和编辑任务,展现出强大的灵活性。
🚀 苹果计划在未来优化计算速度和物理准确性,持续推进视频生成技术的发展。
