8月23日,Meta在官网宣布开源多语音、语言翻译大模型SeamlessM4T。SeamlessM4T支持100种语音、语言翻译,实现语音到文本、语音到语音、文本到语音和文本到文本的多模式翻译。SeamlessM4T集成了Meta之前发布的NLLB、MMS等翻译模型,使用270,000小时对齐语音文本数据进行训练,是目前最大、功能最全的开源翻译模型。
相关推荐
苹果初代智能眼镜细节曝光,将成 iPhone 最强 AI 配件
苹果计划于2026年底发布、2027年发货的“Apple Glasses”被CEO库克列为最高战略优先级,旨在打造超越Meta的行业标杆产品。
2025年12月23号 14:02
157.2k
重金挖角半年即传不和:扎克伯格与 Meta 新 AI 主管陷入关系僵局
Meta CEO扎克伯格斥巨资重塑AI部门,高薪聘请Scale AI创始人亚历山大·王担任负责人。然而,据《金融时报》报道,两人关系近期趋于紧张,天价合作或已进入“蜜月期”终结阶段。
2025年12月23号 10:28
141.3k
Meta 智能眼镜重大更新:AI 助听功能上线,还能根据眼前的风景点歌
Meta智能眼镜升级,新增“对话聚焦”助听功能,利用定向麦克风在嘈杂环境中清晰捕捉对话者声音,并与Spotify深度集成,提升交互体验。
2025年12月22号 14:31
134.9k
Meta 官宣2026上半年发布 Mango 系列下一代模型
Meta计划于2026年上半年发起AI全面反攻,由首席AI官Alexandr Wang领导,将推出多款下一代智能模型。核心包括统一图像与视频生成理解的多模态模型Mango,以及下一代大型语言模型Av。
2025年12月19号 9:47
98.3k
Meta发布SAM Audio:全球首个支持“点击分离声音”的多模态音频模型,一键提取吉他声、人声或狗叫
Meta发布SAM Audio,全球首个统一多模态音频分离模型。用户可通过点击视频中物体、输入关键词或圈定时间片段,一键提取目标声音或过滤噪音,实现“用眼睛听声音”。该技术首次模拟人类自然感知声音的方式,支持看、说等多种交互。
2025年12月18号 9:25
157.2k
