法國 AI 領軍企業 Mistral AI 正式發佈了兩款全新的語音轉文字(Speech-to-Text)模型,旨在重新定義轉錄速度、隱私保護與性價比的行業標準。
此次推出的模型包括 Voxtral Mini Transcribe V2 和 Voxtral Realtime,均隸屬於 Voxtral Transcribe2體系。這兩款模型可提供頂級的轉錄質量、說話人識別(Diarization)以及極低的延遲表現,適用於虛擬助手、呼叫中心自動化及合規記錄等多種商業場景。

核心產品亮點:
Voxtral Realtime(實時處理): 專爲直播音頻設計,採用創新的流式架構。其延遲最低可配置爲 200毫秒。在480毫秒的延遲下,錯誤率僅爲1%-2%,幾乎等同於離線轉錄精度。該模型僅有40億參數,支持在手機或筆記本電腦等本地設備上運行,極大保障了隱私安全。目前已在 Hugging Face 平臺以 Apache2.0協議開源,API 價格爲 0.006美元/分鐘。
Voxtral Mini Transcribe2(批量處理): 專門處理預錄音文件。它支持長達3小時的單次請求,並具備精準的說話人標註和時間戳功能。其在 FLEURS 詞錯率基準測試中表現優異,而 API 價格僅爲 0.003美元/分鐘,被 Mistral AI 稱爲目前市場上性價比最高的轉錄方案。
兩款模型均原生支持包括中文、英語、法語、日語在內的13種語言。用戶目前已可在 Mistral AI 的 Audio Playground 或 Le Chat 助手上進行體驗。
劃重點:
🚀 極致性能:實時模型延遲低至200ms,離線模型具備極高的詞錯率(WER)優勢。
🔒 本地化部署:4B 參數量的輕量化設計支持在本地設備運行,無需上傳雲端,確保隱私安全。
💰 高性價比:批量轉錄 API 低至每分鐘0.003美元,力求在企業市場建立價格優勢。
🌍 多語言支持:原生支持全球13種主流語言,涵蓋絕大部分商業應用場景。
