在語音識別領域,中文識別的技術發展一直備受關注。近日,小紅書的 FireRed 團隊發佈了一個全新的開源語音識別模型 ——FireRedASR。這個基於大模型的語音識別系統在多個標準測試集上取得了優異的成績,標誌着中文語音識別技術的一次重大突破。

FireRedASR 的核心指標是字錯誤率(CER),該指標越低,表示模型的識別效果越好。在最近的公開測試中,FireRedASR 的 CER 達到了3.05%,較之前的最佳模型 Seed-ASR 降低了8.4%。這一結果顯示出 FireRed 團隊在語音識別技術上的創新能力。
FireRedASR 模型分爲兩種核心結構:FireRedASR-LLM 和 FireRedASR-AED。前者專注於極致的語音識別精度,後者則在準確率與推理效率之間實現了良好的平衡。團隊提供了不同規模的模型和推理代碼,以滿足各種應用場景的需求。
在多個日常應用場景中,FireRedASR 同樣展現了強大的性能。在由短視頻、直播和語音輸入等多種來源組成的測試集中,FireRedASR-LLM 的 CER 相較於業內領先的服務提供商降低了23.7% 至40%。特別是在需要歌詞識別的場景中,該模型的表現尤爲突出,CER 實現了50.2% 至66.7% 的相對降低。
此外,FireRedASR 還在中文方言和英語場景中表現優異,其 CER 在 KeSpeech 和 LibriSpeech 測試集上顯著優於之前的開源模型,證明其在多種語言環境中的魯棒性和適應性。
FireRed 團隊希望通過開源這一新模型,推動語音識別技術的發展和應用,爲語音交互的未來貢獻力量。所有模型和代碼已在 GitHub 上公開,鼓勵更多開發者和研究者參與其中。
huggingface:https://huggingface.co/FireRedTeam
github:https://github.com/FireRedTeam/FireRedASR
劃重點:
- 🎤 FireRedASR 是小紅書團隊新發布的開源語音識別模型,中文識別準確率表現優異。
- 🚀 模型分爲 FireRedASR-LLM 和 FireRedASR-AED,分別針對精度和效率需求。
- 🌍 FireRedASR 在多種場景下表現優異,適用於普通話、中文方言及英語等多種語言環境。
