美國初創公司 Useful Sensors 推出了一款名爲 Moonshine 的開源語音識別模型。Moonshine 的設計旨在更高效地處理音頻數據,相比於 OpenAI 的 Whisper,它在計算資源的使用上更爲經濟,處理速度快五倍。這一新模型專爲在資源有限的硬件上實現實時應用而打造,具有靈活的架構。

image.png

與 Whisper 將音頻分爲固定的30秒片段處理不同,Moonshine 根據實際音頻長度調整處理時間。這使得它在處理較短音頻片段時表現出色,減少了由於零填充而產生的處理開銷。

Moonshine 有兩個版本:小型的 Tiny 版本參數量爲2710萬,大型的 Base 版本則爲6150萬。而相比之下,OpenAI 的同類模型參數量更大,Whisper tiny.en 爲3780萬,base.en 爲7260萬。

image.png

測試結果顯示,Moonshine 的 Tiny 模型在準確性上與 Whisper 相當,同時消耗的計算資源更少。在各種音頻水平和背景噪聲的情況下,Moonshine 的兩個版本在詞錯誤率(WER)上都低於 Whisper,顯示出較強的性能。

研究團隊指出,Moonshine 在處理極短音頻片(少於一秒)時仍有提升空間。這些短音頻在訓練數據中佔比較小,增加這類音頻片段的訓練可能會提升模型的表現。

此外,Moonshine 的離線能力開闢了新的應用場景,之前由於硬件限制而無法實現的應用現在變得可行。與需要較高功耗的 Whisper 不同,Moonshine 適合在智能手機和小型設備(如樹莓派)上運行。Useful Sensors 正在利用 Moonshine 開發其英西翻譯器 Torre。

Moonshine 的代碼已經在 GitHub 上發佈,用戶需要注意,像 Whisper 這樣的 AI 轉錄系統可能會出現錯誤。一些研究表明,Whisper 在生成內容時有1.4% 的概率會出現虛假信息,特別是對於有語言障礙的人羣,錯誤率更高。

項目入口:https://github.com/usefulsensors/moonshine

劃重點:

🌟 Moonshine 是一款開源語音識別模型,其處理速度比 OpenAI 的 Whisper 快五倍。  

🔍 該模型能夠根據音頻長度調整處理時間,特別適合短音頻片段。  

🖥️ Moonshine 支持離線運行,適合資源有限的硬件設備使用。