Artificial Analysis 近日發佈了其語音轉文字(Speech-to-Text)基準測試的2.0版本(AA-WER v2.0)。測試結果顯示,ElevenLabs 與谷歌在音頻轉錄領域展現出極強的統治力。

在覈心的詞錯率(WER)指標上,ElevenLabs 推出的 Scribe v2 以 2.3% 的極低錯誤率位居榜首。緊隨其後的是谷歌的 Gemini3Pro,錯誤率爲 2.9%。值得注意的是,谷歌並未針對轉錄任務對 Gemini 進行專項訓練,這一優異表現完全得益於其強大的多模態通用能力。
其他主流模型表現如下:
Mistral Voxtral Small:以 3.0% 的錯誤率位列第三。
谷歌 Gemini3Flash:表現穩健,錯誤率爲 3.1%。
OpenAI Whisper Large v3:作爲最受歡迎的開源模型,此次以 4.2% 的錯誤率排在中游位置。
墊底陣營:阿里巴巴的 Qwen3ASR Flash(5.9%)、亞馬遜的 Nova2Omni(6.0%)以及 Rev AI(6.1%)在測試中排名靠後。

在專門針對語音助手指令的 AA-AgentTalk 測試中,排名格局依然穩定。ElevenLabs Scribe v2和 Google Gemini3Pro 分別以 1.6% 和 1.7% 的錯誤率遙遙領先,展現了在處理短促、直接的語音交互時的極高可靠性。
