開源Sora復現方案，成本降低46%，序列擴充至819K patches

Colossal-AI開源了完整的Sora復現架構方案Open-Sora，聲稱可降低46%復現成本，並將模型訓練輸入序列長度擴充至819K patches。Sora算法復現方案在Sora的技術報告中，Sora使用了一個視頻壓縮網絡將各種尺寸的視頻壓縮成一個隱空間的時空塊序列，然後使用了Diffusion Transformer進行去噪，最後進行解碼生成視頻。Open-Sora將Sora可能使用的訓練pipeline歸納爲提供完整的Sora復現架構方案，包含從數據處理到訓練推理全流程。目前Open-Sora已涵蓋提供完整的Sora復現架構方案，包含從數據處理到訓練推理全流程，支持動態分辨率，支持多種模型結構，支持多種視頻壓縮方法，支持多種並行訓練優化。性能方面，在單臺H800 SXM 8*80GB GPU上使用DiT-XL/2模型的性能測試爲例，在600K的序列長度時，Open-Sora的方案比基線方案有40%以上的性能提升和成本降低。Open-Sora開源地址：https://github.com/hpcaitech/Open-Sora。

GPT-4o 級別！VITA-1.5：實時視覺與語音交互， 1.5秒互動延遲

近日，VITA-MLLM 團隊宣佈推出 VITA-1.5，這是該團隊在 VITA-1.0基礎上推出的升級版本，致力於提升多模態交互的實時性與準確性。VITA-1.5不僅支持英語和中文，還在多項性能指標上實現了顯著提升，爲用戶提供了更流暢的交互體驗。在 VITA-1.5中，互動延遲大幅降低，從原來的4秒縮短至僅1.5秒，用戶在進行語音交互時幾乎感受不到延遲。此外，該版本在多模態性能方面也有顯著提高，經過評估，VITA-1.5在 MME、MMBench 和 MathVista 等多個基準測試中的平均性能從59.8提升至70.8，展現了出色的能力。VITA

豆包視頻模型PixelDance發佈後OpenAI急了？宣稱對Sora進行重大升級

OpenAI 近日在視頻 AI 領域再次引發轟動，他們正在對今年2月發佈的 Sora 進行重大升級。根據《信息日報》的報道，這次升級的核心目標是顯著提升 Sora 的性能，使其能夠更快速地生成更長、更高質量的視頻內容。回顧 Sora 初版的表現，確實存在不少亟待解決的問題。最初版本生成一段視頻需要耗時超過10分鐘，這樣的效率顯然無法滿足實際應用需求。更嚴重的是，許多電影製作者對 Sora 的輸出質量頗有微詞。製片人 Patrick Cederberg 的經歷就是一個典型案例:爲了獲得一個可用的視頻，他不得不

AI開發者狂喜！谷歌Gemini 1.5升級：性能暴漲，價格腰斬

谷歌今日宣佈推出全新升級的Gemini模型系列，包括Gemini-1.5-Pro-002和Gemini-1.5-Flash-002。這次更新不僅大幅提升了性能，還帶來了令人驚喜的價格優惠，無疑將在AI開發圈掀起一陣熱潮。首先，最吸引眼球的是價格的大幅下調。新版模型的使用成本直接腰斬，降幅超過50%。與此同時，性能卻得到了顯著提升。Gemini1.5Flash的處理速率翻倍，而1.5Pro更是接近三倍。這意味着開發者可以以更低的成本獲得更快的輸出和更短的延遲，大大提高了開發效率。在性能方面，新版Gemini模型展現出全面的提升。特

騰訊揭祕：Agent數量越多，大語言模型效果越好

["大語言模型的性能會隨着實例化agent數量的增加而增強","多個小模型超過大模型的性能","實驗結果表明多個小LM集成可以達到甚至超越較大LM的性能","論文探討了性能提升與問題難度之間的關係","作者提出了逐步採樣和投票、分層採樣和投票兩種優化策略"]

開源Sora復現方案，成本降低46%，序列擴充至819K patches

相關推薦

GPT-4o 級別！VITA-1.5：實時視覺與語音交互， 1.5秒互動延遲

豆包視頻模型PixelDance發佈後OpenAI急了？宣稱對Sora進行重大升級

AI開發者狂喜！谷歌Gemini 1.5升級：性能暴漲，價格腰斬

M3版MacBook Air預售價8999元，性能提升約60%，內置多種配置選擇

騰訊揭祕：Agent數量越多，大語言模型效果越好