相关推荐
重磅开源!原生多模态 LongCat-Next 发布,让视觉和语音成为 AI 的“母语”
全球AI领域正经历“AI母语”技术变革。针对当前大模型“语言中心、外挂视觉或语音”的拼凑架构,团队发布并开源了原生多模态大模型LongCat-Next及离散分词器,旨在打破模态壁垒,让AI像处理文字一样理解物理世界。核心是通过重构底层架构实现突破。
2026年6月4号 15:48
219.3k
先理解再动手!字节开源统一框架 Bernini,让 AI 视频编辑告别“碰运气”
字节跳动开源视频生成与编辑统一框架Bernini,核心采用“先理解、再生成”的协同机制,解决传统模型因无法精准理解复杂文本指令导致的画面失控、帧间闪烁等痛点,突破主体变形、背景漂移等瓶颈。
2026年6月3号 13:41
252.9k
百度文心发布PaddleOCR-VL-1.6:准确率破96.33%刷新文档解析SOTA
百度发布文心大模型衍生模型PaddleOCR-VL-1.6,在OmniDocBench v1.6评测中以96.33%准确率超越Gemini-3-Pro、GPT-5.2等主流模型,刷新SOTA,综合性能全球第一。该模型标志着多模态大模型在复杂文档理解与真实场景解析上的重大突破,支持超100种语言识别,用户覆盖广泛。
2026年6月2号 17:48
232.4k
编程与GUI双向通吃!Qwen3.7-Plus 登场,11小时自主闭环开发真实APP
阿里发布多模态大模型Qwen3.7-Plus,在文本能力基础上增强视觉-语言功能,统一为智能体基座。该模型融合GUI与CLI交互,实现从原型到软件工程的端到端自动化,并在Vision Arena榜单中表现强劲。
2026年6月2号 9:18
207.0k
字节跳动开源Lance 3B:用一个“脑子”同时搞定图视理解与生成
字节跳动开源Lance,一款仅3B激活参数的原生统一多模态大模型,打破“理解模型(VLM)”与“生成模型(DiT/Diffusion)”的技术壁垒。它以极致轻量化实现全功能覆盖,挑战当前AI行业堆砌参数或“拼积木”组装模型的风气,成为技术创新的重要突破。
2026年5月22号 14:22
349.6k
