【AIbase報道】 Meta的基礎人工智能研究(FAIR)團隊近日宣佈推出Omnilingual ASR,這是一款創新的自動語音識別系統,能夠轉錄超過1600種口語語言。此舉旨在彌合現有AI工具在語言覆蓋上的巨大差距,正式邁向“通用轉錄系統”的目標。

長期以來,大多數語音識別系統僅專注於少數擁有大量轉錄音頻資源的語言,導致全球7000多種語言中,有數千種幾乎得不到AI支持。Omnilingual ASR的發佈將改變這一現狀。Meta指出,在其支持的1600種語言中,有500種語言此前從未被任何人工智能系統覆蓋

核心亮點:精度與擴展性並重

Omnilingual ASR的性能令人矚目:

  • 在測試的1600種語言中,系統對78%的語言實現了低於10個字符的錯誤率

  • 對於擁有至少10小時訓練音頻的“資源豐富”語言,這一準確率標準達到了95%的覆蓋。

  • 即使是音頻時長不足10小時的“低資源”語言,也有36%的語言錯誤率低於10個字符的閾值,爲這些羣體帶來了實用的語音識別功能。

情境學習:將覆蓋範圍擴展至5400種語言

Omnilingual ASR的一個關鍵創新是其“自帶語言”選項,該功能借鑑大型語言模型的情境學習技術。用戶只需提供少量的音頻和文本配對樣本,系統即可直接從這些樣本中學習新語言,無需重新訓練或大量的計算資源

Meta表示,理論上,這一方法有望將Omnilingual ASR的覆蓋範圍擴展到超過5400種語言,遠遠超越了當前的行業標準。

開源生態與研究支持

爲了支持進一步的研究和應用,Meta採取了全面的開源策略:

  1. 模型開源: Omnilingual ASR以Apache2.0許可證發佈,允許研究人員和開發者自由使用、修改和構建模型,包括用於商業用途。模型基於PyTorch的fairseq2框架構建,提供了從適用於低功耗設備的3億參數版本到追求“頂級準確度”的70億參數版本。

  2. 數據集發佈: Meta同步發佈了全語言自動語音識別語料庫(Omnilingual ASR Corpus),這是一個包含350種代表性不足語言的大型轉錄語音數據集。該數據以**知識共享署名許可協議(CC-BY)**發佈,旨在幫助全球開發者調整語音識別模型,以滿足特定的本地化需求。

Omnilingual ASR的推出標誌着打破全球語言壁壘的重要一步,爲全球語言平等和AI技術的普惠化開闢了新道路。