阿里通义实验室 XR 实验室开源了文生 3D 新模型,可以通过一句文本描述生成对应的 3D 模型及纹理。开源的模型包括 Text-to-ND 和 Text-to-ND-MV 两个大模型。通义实验室 XR 实验室开源了 Text-to-ND 的基础版本以及 Multi-View 版本,满足不同细粒度的算法开发需求。还同步开源了从大模型中蒸馏出(Score Distillation Sampling)3D 模型的优化代码,串联可以完成文本直接到 3D 模型的生成。
相关推荐
艾伦人工智能研究所推出 Molmo 2 开源视频语言模型
艾伦人工智能研究所发布开源视频语言模型Molmo2系列,包括基于阿里巴巴Qwen3的4B和8B版本,以及基于Ai2Olmo的完全开源7B版本,并公开训练数据,彰显其开源承诺。
2025年12月17号 9:53
132.1k
Meta开源神话崩塌:闭源新模型竟靠阿里Qwen训练,小扎“煲汤求才”换来战略大转向
Meta计划于2026年春季发布代号“Avocado”的AI模型,可能转向闭源,并使用了阿里巴巴开源模型Qwen进行训练。消息引发市场关注,阿里巴巴股价上涨。
2025年12月12号 10:59
186.5k
智谱开源 GLM-4.6V 系列:106B 原生支持 Function Call,轻量版 9B 免费商用
智谱发布开源多模态大模型GLM-4.6V系列,包括基础版(106B参数)和轻量版(9B参数)。新模型将上下文窗口扩展至128k tokens,视觉理解精度达到同参数规模最优水平,并首次原生集成Function Call能力,实现从视觉感知到可执行行动的完整链路。API价格大幅下调,基础版输入1元/百万tokens,输出3元/百万tokens;轻量版完全免费,已集成至GLM Coding Plan。
2025年12月9号 9:11
203.3k
微软开源实时语音模型VibeVoice-Realtime-0.5B,300ms实时开声,90分钟长音频都不喘!
微软开源实时语音模型VibeVoice-Realtime-0.5B,具备极低延迟和接近真人的语音表现。该模型从文本输入到发声平均仅需300毫秒,远低于传统TTS模型的1-3秒,实现近乎零延迟的实时语音合成。
2025年12月5号 14:45
359.9k
vLLM-Omni 发布:可以处理文本、图像、音频和视频
vLLM团队推出vLLM-Omni推理框架,支持文本、图像、音频和视频等多模态输入输出,旨在简化多模态推理过程,为新一代全模态模型提供强大支持。
2025年12月2号 14:13
175.2k
