Meta 的基礎人工智能研究團隊(FAIR)近日推出了一款名爲 Omnilingual ASR 的自動語音識別系統,能夠轉錄超過1600種語言的口語。此前,大多數語音識別工具主要集中在幾百種資源豐富的語言上,導致全球超過7000種語言中,成千上萬種語言幾乎沒有得到 AI 的支持。

image.png

Omnilingual ASR 的推出旨在填補這一空白。Meta 表示,支持的1600種語言中,有500種語言從未被任何 AI 系統覆蓋。FAIR 團隊希望通過這一系統,向 “通用轉錄系統” 邁進,幫助打破全球語言障礙。

該系統的準確性取決於可用的訓練數據。根據 Meta 的說法,Omnilingual ASR 在測試的1600種語言中,有78% 的語言字符錯誤率低於10。在至少有10小時訓練音頻的語言中,95% 的語言達到了這一標準。即使是 “低資源” 語言,音頻訓練時間不足10小時的,仍有36% 的語言字符錯誤率低於10。

爲了進一步支持研究和實際應用,Meta 還發布了 Omnilingual ASR 語料庫,這是一個包含350種欠代表性語言的轉錄語音的大型數據集。這些數據以知識共享(CC-BY)許可證的方式提供,旨在幫助開發者和研究人員爲特定的地方需求構建或調整語音識別模型。

Omnilingual ASR 的一個關鍵特性是 “自帶語言” 選項,它採用了上下文學習的方式。用戶只需提供少量的配對音頻和文本樣本,系統就能直接從這些示例中學習,無需重訓練或大量計算資源。Meta 表示,這一方法理論上可以將 Omnilingual ASR 擴展到超過5400種語言,遠超當前行業標準。儘管在支持不足的語言上,識別質量尚未達到全面訓練系統的水平,但它爲以前沒有接觸過語音識別技術的社區提供了實際的解決方案。

Meta 將 Omnilingual ASR 作爲開源項目發佈,採用 Apache2.0許可證,研究人員和開發者可以自由使用、修改和構建模型,包括商業用途。該模型系列涵蓋了從300百萬參數的輕量級版本到7十億參數的頂尖準確度版本。所有模型都基於 FAIR 的 PyTorch 框架,用戶還可以在官網上進行演示。

demo:https://aidemos.atmeta.com/omnilingualasr/language-globe

劃重點:

🌍  Meta 推出 Omnilingual ASR 系統,支持超過1600種語言的語音識別,旨在填補 AI 在語言識別上的空白。

📊  系統準確性依賴於訓練數據,大部分支持的語言字符錯誤率低於10,部分低資源語言亦有顯著表現。

📦  Omnilingual ASR 爲開源項目,提供豐富的數據集,支持開發者針對地方需求進行模型構建。