摩爾線程近日宣佈開源其音頻理解大模型MooER(摩耳),成爲業界首個基於國產全功能GPU訓練和推理的大型開源語音模型。MooER不僅支持中英文語音識別,還具備中譯英的語音翻譯能力,展現了強大的多語言處理能力。
MooER採用創新的三部分模型結構,包括Encoder、Adapter和Decoder(Large Language Model,LLM)。這種結構設計使得模型能夠有效處理原始音頻,提取特徵,並執行下游任務如語音識別和翻譯。項目團隊已開源了推理代碼和基於5000小時數據訓練的模型,並計劃進一步開源訓練代碼和基於8萬小時數據訓練的增強版模型。

在與多個知名開源音頻理解大模型的對比測試中,MooER-5K表現優異。在中文測試中,其字錯誤率(CER)達到4.21%;英文測試中,詞錯誤率(WER)爲17.98%,與其他頂級模型相比表現更優或相當。特別值得一提的是,在Covost2zh2en中譯英測試集上,MooER的BLEU分數高達25.2,大幅領先其他開源模型,達到了可與工業級應用媲美的水平。
更令人期待的是,基於8萬小時數據訓練的MooER-80k模型展現出更強大的性能,在中文測試集上的CER進一步降至3.50%,英文測試集上的WER也優化到12.66%,顯示了巨大的發展潛力。
摩爾線程此次開源MooER不僅展示了國產GPU在AI領域的應用實力,也爲全球音頻AI技術的發展注入了新的活力。隨着更多訓練數據和代碼的開源,業界期待MooER能在語音識別、翻譯等領域帶來更多突破性進展,推動音頻AI技術的普及和創新應用。
地址:https://arxiv.org/pdf/2408.05101
