長久以來,AI 外呼行業一直缺乏一把公認的“度量衡”。就在今天,聲網聯手美團及 xbench 正式發佈了針對 AI 外呼場景的智能體評測基準——VoiceAgentEval,旨在填補行業空白,推動 AI 模型向真實業務場景加速轉變。

拒絕實驗室數據,用真實業務“練真金”。

VoiceAgentEval 的最大亮點在於其“實戰性”:

覆蓋面廣:涵蓋了6大業務領域的30個子場景,力求還原最真實的市場需求。

語料庫真實:基於真實外呼業務數據構建,摒棄了傳統的死板腳本。

雙維度評估:不僅看文本生成的邏輯是否正確,更加入語音維度的評估,全面審視 AI 在對話中的綜合表現。

150種對話模擬,AI 演練更絲滑。

爲了測試模型的任務遵循度和通用交互能力,評測框架通過用戶模擬器構建了150種虛擬對話場景。這就像給 AI 安排了一場場“模擬考”,評估其在面對不同用戶反饋時,能否始終穩健地推進業務流程。

誰是目前的 AI 外呼“尖子生”?

據悉,通過該評測標準的初步篩查,目前已確定了在 AI 外呼場景中綜合性能排名前三的模型。這一結果不僅爲行業樹立了技術標杆,也爲相關企業(如北京三快科技有限公司等)在後續的 AI 業務部署中提供了權威參考。

VoiceAgentEval 的發佈,標誌着 AI 外呼行業正式從“拼技術參數”時代邁入“拼業務實效”時代。在評測標準的驅動下,未來的 AI 外呼將更加智能、高效,且更具人性化關懷。