开源Sora复现方案，成本降低46%，序列扩充至819K patches

Colossal-AI开源了完整的Sora复现架构方案Open-Sora，声称可降低46%复现成本，并将模型训练输入序列长度扩充至819K patches。Sora算法复现方案在Sora的技术报告中，Sora使用了一个视频压缩网络将各种尺寸的视频压缩成一个隐空间的时空块序列，然后使用了Diffusion Transformer进行去噪，最后进行解码生成视频。Open-Sora将Sora可能使用的训练pipeline归纳为提供完整的Sora复现架构方案，包含从数据处理到训练推理全流程。目前Open-Sora已涵盖提供完整的Sora复现架构方案，包含从数据处理到训练推理全流程，支持动态分辨率，支持多种模型结构，支持多种视频压缩方法，支持多种并行训练优化。性能方面，在单台H800 SXM 8*80GB GPU上使用DiT-XL/2模型的性能测试为例，在600K的序列长度时，Open-Sora的方案比基线方案有40%以上的性能提升和成本降低。Open-Sora开源地址：https://github.com/hpcaitech/Open-Sora。

GPT-4o 级别！VITA-1.5：实时视觉与语音交互， 1.5秒互动延迟

近日，VITA-MLLM 团队宣布推出 VITA-1.5，这是该团队在 VITA-1.0基础上推出的升级版本，致力于提升多模态交互的实时性与准确性。VITA-1.5不仅支持英语和中文，还在多项性能指标上实现了显著提升，为用户提供了更流畅的交互体验。在 VITA-1.5中，互动延迟大幅降低，从原来的4秒缩短至仅1.5秒，用户在进行语音交互时几乎感受不到延迟。此外，该版本在多模态性能方面也有显著提高，经过评估，VITA-1.5在 MME、MMBench 和 MathVista 等多个基准测试中的平均性能从59.8提升至70.8，展现了出色的能力。VITA

豆包视频模型PixelDance发布后OpenAI急了？宣称对Sora进行重大升级

OpenAI 近日在视频 AI 领域再次引发轰动，他们正在对今年2月发布的 Sora 进行重大升级。根据《信息日报》的报道，这次升级的核心目标是显著提升 Sora 的性能，使其能够更快速地生成更长、更高质量的视频内容。回顾 Sora 初版的表现，确实存在不少亟待解决的问题。最初版本生成一段视频需要耗时超过10分钟，这样的效率显然无法满足实际应用需求。更严重的是，许多电影制作者对 Sora 的输出质量颇有微词。制片人 Patrick Cederberg 的经历就是一个典型案例:为了获得一个可用的视频，他不得不

AI开发者狂喜！谷歌Gemini 1.5升级：性能暴涨，价格腰斩

谷歌今日宣布推出全新升级的Gemini模型系列，包括Gemini-1.5-Pro-002和Gemini-1.5-Flash-002。这次更新不仅大幅提升了性能，还带来了令人惊喜的价格优惠，无疑将在AI开发圈掀起一阵热潮。首先，最吸引眼球的是价格的大幅下调。新版模型的使用成本直接腰斩，降幅超过50%。与此同时，性能却得到了显著提升。Gemini1.5Flash的处理速率翻倍，而1.5Pro更是接近三倍。这意味着开发者可以以更低的成本获得更快的输出和更短的延迟，大大提高了开发效率。在性能方面，新版Gemini模型展现出全面的提升。特

腾讯揭秘：Agent数量越多，大语言模型效果越好

["大语言模型的性能会随着实例化agent数量的增加而增强","多个小模型超过大模型的性能","实验结果表明多个小LM集成可以达到甚至超越较大LM的性能","论文探讨了性能提升与问题难度之间的关系","作者提出了逐步采样和投票、分层采样和投票两种优化策略"]

开源Sora复现方案，成本降低46%，序列扩充至819K patches

相关推荐

GPT-4o 级别！VITA-1.5：实时视觉与语音交互， 1.5秒互动延迟

豆包视频模型PixelDance发布后OpenAI急了？宣称对Sora进行重大升级

AI开发者狂喜！谷歌Gemini 1.5升级：性能暴涨，价格腰斩

M3版MacBook Air预售价8999元，性能提升约60%，内置多种配置选择

腾讯揭秘：Agent数量越多，大语言模型效果越好