HuggingFace的研究人員最近解決了在資源受限環境中部署大型預訓練語音識別模型的問題。通過創建龐大的開源數據集,利用僞標記的方法,提煉出了Whisper模型的較小版本,即Distil-Whisper。該模型在挑戰性的聲學條件下保持了原模型的韌性,同時解決了長篇音頻中的錯覺錯誤。研究引入了大規模僞標記方法,提供了新的語音數據知識提煉途徑,解決了模型部署問題。Whisper作爲大型預訓練ASR模型在各種數據集上表現出色,而Distil-Whisper在零樣本場景下實現了不到1%的WER,爲解決語音識別模型部署問題帶來了新的解決方案。