隨着人工智能技術的飛速發展,語音正迅速成爲我們與機器溝通的主要方式。法國初創企業 Mistral 近日正式發佈了其首個開源音頻模型 ——Voxtral,旨在打破大型企業封閉系統的壟斷,爲開發者提供一個更靈活且經濟的替代方案。
Mistral 宣稱 Voxtral 是首個能夠在實際應用中提供 “真正可用的語音智能” 的開源模型。這意味着,開發者不再需要在低成本的開源系統和高效但封閉的解決方案之間做艱難選擇。Voxtral 以其 “不到一半價格” 的優勢,爲企業提供了一個更加經濟的選擇。
據 Mistral 介紹,Voxtral 可以轉錄長達30分鐘的音頻。由於其基於大型語言模型 Mistral Small3.1,用戶能夠理解最長可達40分鐘的音頻內容。用戶不僅可以提出與音頻內容相關的問題,還能生成摘要,甚至將語音指令轉化爲實時操作,如調用 API 或執行特定功能。此外,Voxtral 還具備多語言支持,能夠理解和轉錄英語、西班牙語、法語、葡萄牙語、印地語、德語、荷蘭語和意大利語等多種語言。
Mistral 提供了兩種 “語音理解模型” 的變體。首先是 Voxtral Small,擁有240億個參數,適用於生產級部署,並與 ElevenLabs Scribe、GPT-4o-mini 和 Gemini2.5Flash 等競爭。其次是 Voxtral Mini,具有30億個參數,適用於本地和邊緣部署。還有一個超經濟版的3億參數模型,稱爲 Voxtral Mini Transcribe,專爲轉錄場景優化,其性能承諾超越 OpenAI 的 Whisper,價格卻不到其一半。
用戶可以通過 Hugging Face 免費下載 Voxtral 的 API,或在 Mistral 的聊天機器人 Le Chat 中進行測試。根據公司的說法,API 的集成費用從每分鐘0.001美元起。此次發佈恰逢 Mistral 一個月前推出的推理模型 Magistral,這些模型通過逐步解決問題來提高可靠性。
作爲歐洲頂尖的人工智能公司之一,Mistral 一直以來積極推動開源 AI 模型的發展。值得一提的是,近期有消息稱 Mistral 正在與投資者洽談,計劃籌集高達10億美元的資金,其中包括阿布扎比的 MGX 基金。