Lightricks 宣佈其 AI 視頻生成模型 LTX-Video (LTXV) 迎來重大更新,新增支持生成長達 60秒 的圖像到視頻內容。這一突破性進展打破了行業常規的8秒限制,使 LTXV 成爲首款支持實時流式生成長篇 AI 視頻的開源模型。
60秒視頻生成:從短片到長篇敘事的飛躍
LTXV 的最新版本通過引入自迴歸流式架構,實現了從單一圖像生成長達60秒的高質量視頻。相較於傳統模型的短時輸出,LTXV 能夠在生成過程中實時流式傳輸視頻,首秒內容幾乎瞬時呈現,隨後持續構建場景。這種技術不僅支持更長的視頻生成,還確保了動作和敘事的平滑連貫性,爲創作者提供了前所未有的敘事表達空間。
用戶可通過輸入詳細的文本提示,結合初始圖像,生成分辨率爲 768x512 或更高(如1216x704)的視頻,幀率爲 24FPS。LTXV 的多尺度渲染技術先以低分辨率捕捉粗略動作,再逐步優化細節,確保視頻在速度與質量之間達到最佳平衡。
實時控制與創作靈活性
LTXV 模型的更新引入了動態場景控制功能,允許用戶在視頻生成過程中實時調整姿勢、深度或風格等元素。藉助 Lightricks 的 IC-LoRA 技術,創作者可以持續應用控制信號(如姿勢檢測或邊緣檢測),實現對視頻細節的精準把控。這種“邊生成邊導演”的能力,使得 LTXV 從單一的提示生成工具,轉變爲真正的長篇敘事平臺。
此外,LTXV 支持多種生成模式,包括文本到視頻、圖像到視頻、關鍵幀動畫以及視頻擴展,用戶甚至可以結合多個圖像或短視頻片段作爲條件,生成複雜的視頻內容。這種靈活性使其適用於從社交媒體短視頻到交互式教育內容、甚至實時 AR 視覺效果的廣泛場景。
高效與開源:賦能廣泛創作者
LTXV 的另一個亮點是其高效性和硬件友好性。得益於 130億參數 的模型架構和 bfloat16精度 優化,LTXV 能在消費級 GPU(如 NVIDIA RTX4090或5090)上以極低的 VRAM 需求(最低8GB)運行,生成60秒視頻僅需數秒。例如,在 H100GPU 上,LTXV 可在 4秒內 生成5秒視頻,速度快於實時播放。相比之下,競品模型如 OpenAI 的 Sora 通常需要多 GPU 集羣支持,計算成本高昂。
作爲開源模型,LTXV 的代碼和權重已在 GitHub 和 Hugging Face 上免費提供,遵循 LTXV Open Weights License,支持學術研究和社區開發。Lightricks 還發布了配套工具,如 LTX-Video-Trainer 和 ComfyUI 集成工作流,進一步降低使用門檻。
行業影響與未來前景
Lightricks 的此次更新將 AI 視頻生成推向了新的高度。60秒視頻生成能力的突破,不僅爲獨立創作者、營銷團隊和遊戲開發者提供了快速生成長篇內容的能力,也爲實時交互式應用(如動態 AR 視覺或玩家驅動的遊戲過場動畫)奠定了基礎。
社交媒體反饋顯示,用戶對 LTXV 的速度和質量讚不絕口。例如,有用戶表示在 RTX4080上生成768x512視頻僅需 45秒,而60秒視頻的生成效果也令人驚歎,儘管部分用戶提到工作流設置仍需優化。
然而,LTXV 的非商業用途限制(僅限學術和研究)可能對部分商業創作者構成挑戰。Lightricks 表示,未來將在其旗艦平臺 LTX Studio 中推出支持60秒視頻的商業版本,進一步擴大應用場景。
AIbase 認爲,LTXV 的更新重新定義了 AI 視頻創作的可能性,其開源策略和高效性能將加速行業創新。未來,隨着模型的進一步優化,LTXV 有望在專業影視製作和實時內容生成領域佔據重要地位。