Lightricks 宣布其 AI 视频生成模型 LTX-Video (LTXV) 迎来重大更新,新增支持生成长达 60秒 的图像到视频内容。这一突破性进展打破了行业常规的8秒限制,使 LTXV 成为首款支持实时流式生成长篇 AI 视频的开源模型。
60秒视频生成:从短片到长篇叙事的飞跃
LTXV 的最新版本通过引入自回归流式架构,实现了从单一图像生成长达60秒的高质量视频。相较于传统模型的短时输出,LTXV 能够在生成过程中实时流式传输视频,首秒内容几乎瞬时呈现,随后持续构建场景。这种技术不仅支持更长的视频生成,还确保了动作和叙事的平滑连贯性,为创作者提供了前所未有的叙事表达空间。
用户可通过输入详细的文本提示,结合初始图像,生成分辨率为 768x512 或更高(如1216x704)的视频,帧率为 24FPS。LTXV 的多尺度渲染技术先以低分辨率捕捉粗略动作,再逐步优化细节,确保视频在速度与质量之间达到最佳平衡。
实时控制与创作灵活性
LTXV 模型的更新引入了动态场景控制功能,允许用户在视频生成过程中实时调整姿势、深度或风格等元素。借助 Lightricks 的 IC-LoRA 技术,创作者可以持续应用控制信号(如姿势检测或边缘检测),实现对视频细节的精准把控。这种“边生成边导演”的能力,使得 LTXV 从单一的提示生成工具,转变为真正的长篇叙事平台。
此外,LTXV 支持多种生成模式,包括文本到视频、图像到视频、关键帧动画以及视频扩展,用户甚至可以结合多个图像或短视频片段作为条件,生成复杂的视频内容。这种灵活性使其适用于从社交媒体短视频到交互式教育内容、甚至实时 AR 视觉效果的广泛场景。
高效与开源:赋能广泛创作者
LTXV 的另一个亮点是其高效性和硬件友好性。得益于 130亿参数 的模型架构和 bfloat16精度 优化,LTXV 能在消费级 GPU(如 NVIDIA RTX4090或5090)上以极低的 VRAM 需求(最低8GB)运行,生成60秒视频仅需数秒。例如,在 H100GPU 上,LTXV 可在 4秒内 生成5秒视频,速度快于实时播放。相比之下,竞品模型如 OpenAI 的 Sora 通常需要多 GPU 集群支持,计算成本高昂。
作为开源模型,LTXV 的代码和权重已在 GitHub 和 Hugging Face 上免费提供,遵循 LTXV Open Weights License,支持学术研究和社区开发。Lightricks 还发布了配套工具,如 LTX-Video-Trainer 和 ComfyUI 集成工作流,进一步降低使用门槛。
行业影响与未来前景
Lightricks 的此次更新将 AI 视频生成推向了新的高度。60秒视频生成能力的突破,不仅为独立创作者、营销团队和游戏开发者提供了快速生成长篇内容的能力,也为实时交互式应用(如动态 AR 视觉或玩家驱动的游戏过场动画)奠定了基础。
社交媒体反馈显示,用户对 LTXV 的速度和质量赞不绝口。例如,有用户表示在 RTX4080上生成768x512视频仅需 45秒,而60秒视频的生成效果也令人惊叹,尽管部分用户提到工作流设置仍需优化。
然而,LTXV 的非商业用途限制(仅限学术和研究)可能对部分商业创作者构成挑战。Lightricks 表示,未来将在其旗舰平台 LTX Studio 中推出支持60秒视频的商业版本,进一步扩大应用场景。
AIbase 认为,LTXV 的更新重新定义了 AI 视频创作的可能性,其开源策略和高效性能将加速行业创新。未来,随着模型的进一步优化,LTXV 有望在专业影视制作和实时内容生成领域占据重要地位。