阿里巴巴近日推出了一款名为QVQ-72B的全新多模态推理模型,该模型基于Qwen2-VL-72B构建,融合了强大的语言和视觉能力,能够处理更为复杂的推理和分析任务,标志着阿里巴巴在多模态AI领域取得了新的突破。
阿里发布多模态推理模型QVQ-72B!视觉、语言能力双提升,复杂问题迎刃而解

阿里巴巴近日推出了一款名为QVQ-72B的全新多模态推理模型,该模型基于Qwen2-VL-72B构建,融合了强大的语言和视觉能力,能够处理更为复杂的推理和分析任务,标志着阿里巴巴在多模态AI领域取得了新的突破。
近期,德国弗劳恩霍夫过程工程与包装研究所的研究团队开发了一种名为 OWSum 的人工智能分子气味预测算法,成功地将美国威士忌与苏格兰威士忌区分开来,并且其准确性超越了人类专家。该团队利用威士忌的味道描述和化学数据来训练这款 AI 工具,探索其在威士忌鉴别方面的潜力。图源备注:图片由AI生成,图片授权服务商Midjourney在研究中,研究人员选择了16种样品,包括9种苏格兰威士忌和7种美国波本威士忌。OWSum 通过分析这些威士忌的关键词描述,如花香、果香、木香和烟熏等,能够
泰国工业部近日宣布,将引入人工智能(AI)系统来加强对在线平台销售的假冒伪劣商品的监管。工业部阿卡纳特·普罗姆潘的秘书Pongpol Yodmuangcharoen周三表示,该部门的技术与工业改革创新委员会在 12 月 20 日的会议上讨论了这一方案。委员会在 12 月 20 日的第二次会议上了解到,一项研究表明,工业部的AI系统每天可以监控和检测 10 万件通过在线平台销售的不合格消费品,而目前人工官员每天只能检测 1600 件。Pongpol解释说,阿卡纳特成立该委员会是为了解决涌入泰国市场的廉价劣质产品
工业和信息化部、国务院国有资产监督管理委员会、中华全国工商业联合会印发《制造业企业数字化转型实施指南》。要求推动制造业企业数字化转型是一项系统工程,要以企业发展实际为出发点、以解决企业痛点难点问题为目标、以提升全要素生产率为导向、以场景数字化为切入点,综合考虑技术成熟度、经济可行性、商业模式可持续性,精准识别数字化转型优先领域和重点方向。其中提出,推动生产过程智能转型。引导企业开展生产全过程的透明化管理,鼓励部署基于工业互联网平台
随着人工智能技术的进步,E2E(端到端)测试领域迎来新一轮创新浪潮。字节跳动web-infra团队最新开源的Midscene.js和独立开发者推出的Shortest等工具,正在改变传统的测试方式。Midscene.js采用多模态大语言模型,能够直观"理解"用户界面并执行相应操作。该框架最大的特点是提供了一个便捷的浏览器插件,让用户无需编写代码就能通过自然语言与网页进行交互。该插件支持三种核心功能:交互、提取和断言,显著简化了测试流程。与此同时,创业团队开发的Shortest同样展示了AI在测试领域的潜力
根据蓝鲸财经消息称,字跳动 TikTok 的算法负责人陈志杰即将离职,并已开始筹备一项与人工智能相关的创业项目,专注于 AI Coding 方向。据知情人士透露,陈志杰目前正在与投资人接触,以推动他的创业计划。图源备注:图片由AI生成,图片授权服务商Midjourney陈志杰自2022年4月加入字节跳动,担任技术高级总监,主要负责 TikTok 的推荐算法团队和数据科学团队。在此之前,他在百度工作了近九年,期间曾担任首席技术架构师,积累了丰富的技术经验。此次离职的消息引起了业内的广泛关注
日前,QQ 音乐正式推出14.0版本,带来了令人期待的全新功能和体验。在这一版本中,更是发布了首个AI大模型音效,智能匹配听歌音效。据了解,这一音效由 QQ 音乐天琴实验室与银河音效团队共同研发,通过分析音乐音频的音色、音质和空间感等维度,为用户提供个性化的听觉体验。比如用户在播放《孤勇者》时,可以感受到主歌部分的3D 环绕音效所带来的空间层次感,而副歌的近场环绕则让氛围更加增强。大模型音效将覆盖 QQ 音乐站内 Top100万的热播歌曲,进一步提升用户的听歌体验。