正文

AI 外呼告別“盲目自嗨”！聲網聯手美團發佈 VoiceAgentEval：首個行業評測基準讓 AI 更有“人味”

發布於AI新閒資訊

時間 :Feb 10, 2026

閱讀 :1分鐘

長久以來，AI 外呼行業一直缺乏一把公認的“度量衡”。就在今天，聲網聯手美團及 xbench 正式發佈了針對 AI 外呼場景的智能體評測基準——VoiceAgentEval，旨在填補行業空白，推動 AI 模型向真實業務場景加速轉變。

拒絕實驗室數據，用真實業務“練真金”。

VoiceAgentEval 的最大亮點在於其“實戰性”:

覆蓋面廣:涵蓋了6大業務領域的30個子場景，力求還原最真實的市場需求。

語料庫真實:基於真實外呼業務數據構建，摒棄了傳統的死板腳本。

雙維度評估:不僅看文本生成的邏輯是否正確，更加入語音維度的評估，全面審視 AI 在對話中的綜合表現。

150種對話模擬，AI 演練更絲滑。

爲了測試模型的任務遵循度和通用交互能力，評測框架通過用戶模擬器構建了150種虛擬對話場景。這就像給 AI 安排了一場場“模擬考”，評估其在面對不同用戶反饋時，能否始終穩健地推進業務流程。

誰是目前的 AI 外呼“尖子生”?

據悉，通過該評測標準的初步篩查，目前已確定了在 AI 外呼場景中綜合性能排名前三的模型。這一結果不僅爲行業樹立了技術標杆，也爲相關企業（如北京三快科技有限公司等）在後續的 AI 業務部署中提供了權威參考。

VoiceAgentEval 的發佈，標誌着 AI 外呼行業正式從“拼技術參數”時代邁入“拼業務實效”時代。在評測標準的驅動下，未來的 AI 外呼將更加智能、高效，且更具人性化關懷。

GPT-5.2 強力驅動！OpenAI 深度研究工具大升級，解鎖全屏報告交互新體驗

OpenAI 更新 ChatGPT 深度研究工具，引入 GPT-5.2 模型提升報告生成能力，並新增全屏查看器功能。用戶可在獨立窗口完整瀏覽報告，通過左側交互式目錄快速跳轉至特定內容，優化了閱讀與信息獲取體驗。

ChatGPT專屬保險比價應用上線，引發行業震動。美股保險經紀板塊遭遇重挫，行業巨頭股價大跌。傳統保險中介面臨挑戰，AI技術正改變保險比價與服務模式。

馬斯克旗下AI公司xAI再陷人事動盪，聯合創始人Tony Wu宣佈離職，稱將開啓人生新篇章。這已是xAI創始12人團隊中第5位出走的成員，其中4人在過去一年內離開，顯示公司核心團隊近半流失。

xAI聯合創始人吳宇懷宣佈離職，稱將開啓“人生新篇章”。他雖對團隊前景表示讚美，但此舉進一步暴露了公司核心創始團隊加速分崩離析的現狀。隨着吳宇懷離開，xAI最初的12名創始成員中已有5人離職，其中4人是在過去一年內密集出走，涉及多個關鍵技術崗位。

捷克兄妹冰舞組合在奧運首秀中，不僅以高難度託舉動作驚豔全場，更因使用AI生成的90年代風格配樂引發關注。

智啟未來，您的人工智能解決方案智庫