以色列人工智能初創公司 aiOla 近日搞了個大動作,宣佈推出一款新的開源語音識別模型 Whisper-Medusa。

image.png

這模型可不簡單,它比 OpenAI 大名鼎鼎的 Whisper 速度快了足足50%!它是在 Whisper 的基礎上搭建的,但採用了一種新奇的“多頭注意力”架構,一次能預測的代幣數量遠超 OpenAI 的產品。而且,代碼和權重已經在 Hugging Face 上用麻省理工學院的許可發佈啦,允許研究和商業使用。

aiOla 的研究副總裁 Gill Hetz 說了,開源能鼓勵社區創新合作,讓速度更快、更完善。這工作能給複合人工智能系統開路,讓系統幾乎實時理解和回答用戶問題。

在這個基礎模型能出各種內容的時代,高級語音識別還是很重要的。像 Whisper 能處理不同語言和口音的複雜語音,每月下載超500萬次,給好多應用提供支持,成了語音識別的黃金標準。

那 aiOla 的 Whisper-Medusa 有啥特別的?

該公司改了 Whisper 的架構,加了多頭注意力機制,每次能預測10個token,速度提高50%,還不影響準確性。訓練這個模型用了弱監督的機器學習方法,以後還會有更厲害的版本。更重要的是,由於 Whisper-Medusa 的骨幹網建立在 Whisper 之上,因此速度的提高不會以犧牲性能爲代價。

在訓練 Whisper-Medusa 時,aiOla 採用了一種稱爲弱監督的機器學習方法。作爲其中的一部分,它凍結了 Whisper 的主要組件,並使用模型生成的音頻轉錄作爲標籤來訓練額外的token預測模塊。

image.png

當被問及是否有任何公司可以提前獲得Whisper-Medusa時,Hetz 說他們在真實企業數據用例上測試過,能在實際場景準確運行,以後能讓語音應用反應更快。最終,他相信識別和轉錄速度的提高將使語音應用程序的週轉時間更快,併爲提供實時響應鋪平道路。

劃重點:

💥速度快50%:aiOla 的 Whisper-Medusa 比 OpenAI 的 Whisper 語音識別速度大幅提升。

🎯不損準確性:速度提升的同時保持了與原模型相同的準確性。

📈應用前景廣:有望在語音應用中加快響應,提升效率,降低成本。