相关推荐
IBM发布Granite 4.0 3B Vision:企业级文档数据提取的新利器
IBM发布Granite 4.0 3B Vision视觉语言模型,拥有30亿参数,专为企业级复杂文档数据提取优化。该模型针对金融、法律、医疗等行业非结构化数据处理难题,在复杂表格、扫描件及多模态布局文档中表现突出,通过结合视觉理解与语言生成,精准识别并提取关键信息。
2026年4月2号 14:34
247.3k
Suno 压力大了!腾讯联手清华发布 SongGeneration 2,音素错误率低至 8.55%
腾讯与清华大学联合推出AI音乐模型SongGeneration2,在技术架构和音乐质量上实现重大突破,显著超越现有开源模型,甚至媲美顶级商业产品,有效解决了AI音乐的“塑料感”问题。
2026年3月10号 9:55
189.3k
AI 视觉模型深入“搬砖”一线:Bedrock Robotics 联手 AWS 破解建筑业用工荒
初创公司Bedrock Robotics与AWS合作,利用视觉语言模型(VLMs)解决了重型设备自动驾驶系统开发中的关键难题——海量视频数据标注。传统方法依赖人工标注数百万小时监控视频,而新技术显著提升了施工自动化系统的训练效率。
2026年2月24号 9:18
142.4k
挖掘视频“暗数据”!谷歌前员工创办 InfiniMind,助企业解锁 PB 级视频资产
东京初创公司InfiniMind获580万美元种子轮融资,由前谷歌员工创立,致力于开发AI基础设施,将海量未利用的视频音频“暗数据”转化为可搜索的结构化商业智能,应对企业数据处理挑战。
2026年2月10号 18:01
192.0k
一张打印纸竟能“劫持”自动驾驶:视觉语言模型暴露严重安全漏洞
自动驾驶汽车依赖路标识别,但加州大学研究揭示其致命弱点:攻击者通过打印特定文本的标识,就能利用视觉语言模型漏洞,诱导车辆做出危险决策,甚至驶向行人。这种“CHAI”攻击暴露了AI系统对视觉指令的过度依赖风险。
2026年2月2号 16:42
170.5k
