正文

AI 外呼告别“盲目自嗨”！声网联手美团发布 VoiceAgentEval：首个行业评测基准让 AI 更有“人味”

发布于AI新闻资讯

发布时间 :2026年2月10号 15:25

阅读 :1分钟

长久以来，AI 外呼行业一直缺乏一把公认的“度量衡”。就在今天，声网联手美团及 xbench 正式发布了针对 AI 外呼场景的智能体评测基准——VoiceAgentEval，旨在填补行业空白，推动 AI 模型向真实业务场景加速转变。

拒绝实验室数据，用真实业务“练真金”。

VoiceAgentEval 的最大亮点在于其“实战性”:

覆盖面广:涵盖了6大业务领域的30个子场景，力求还原最真实的市场需求。

语料库真实:基于真实外呼业务数据构建，摒弃了传统的死板脚本。

双维度评估:不仅看文本生成的逻辑是否正确，更加入语音维度的评估，全面审视 AI 在对话中的综合表现。

150种对话模拟，AI 演练更丝滑。

为了测试模型的任务遵循度和通用交互能力，评测框架通过用户模拟器构建了150种虚拟对话场景。这就像给 AI 安排了一场场“模拟考”，评估其在面对不同用户反馈时，能否始终稳健地推进业务流程。

谁是目前的 AI 外呼“尖子生”?

据悉，通过该评测标准的初步筛查，目前已确定了在 AI 外呼场景中综合性能排名前三的模型。这一结果不仅为行业树立了技术标杆，也为相关企业（如北京三快科技有限公司等）在后续的 AI 业务部署中提供了权威参考。

VoiceAgentEval 的发布，标志着 AI 外呼行业正式从“拼技术参数”时代迈入“拼业务实效”时代。在评测标准的驱动下，未来的 AI 外呼将更加智能、高效，且更具人性化关怀。

AI 芯片界杀出“黑马”！DEEPX 携手神州数码进军中国：剑指物理 AI，填补 GPU 与 SoC 市场空白

DEEPX与神州数码合作，利用高性能低功耗芯片技术，加速物理AI在中国市场应用，填补高性能与超低功耗之间的市场空白。

Anthropic研究员利用16个Claude智能体组建团队，在两周内通过近2000次代码会话，基本无需人工干预就成功用Rust语言从零开发出C编译器。这一AI自主编程实验展示了强大的代码生成能力，但因资源消耗巨大引发科技圈热议。

亚马逊计划推出AI内容市场，让出版商直接向科技公司出售内容版权，以解决大模型训练数据版权纠纷，推动内容授权正规化。

大模型算力争夺战现江湖义气。月之暗面旗下Kimi因高峰时段算力不足，频繁提示用户切换至快速模式或升级会员，坦诚回应算力告急问题。

阿里云于2026年2月10日发布新一代图像生成基础模型Qwen-Image-2.0，实现了图像生成与编辑功能的融合。该模型采用7B轻量化架构，在保持高速推理的同时，具备四大核心优势：专业的文字渲染能力，支持高达1k token的超长复杂指令处理，并在多项盲测基准中表现卓越。

智启未来，您的人工智能解决方案智库