全球7000多種語言中,超過95%長期被AI語音技術忽視——直到今天。Meta最新發佈的Omnilingual ASR(自動語音識別)系統,一舉打破語言技術的“精英壟斷”,首次實現對1600種語言的高精度語音識別,並引入革命性的“上下文學習”機制,僅需幾段音頻樣本,即可讓AI快速掌握一門全新語言。這一開源系統不僅技術領先,更承載着數字平權的使命,讓瀕危語種與小語種社區首次站上AI時代的舞臺中央。

78%語言識別錯誤率低於10%,小語種不再“失聲”

在傳統語音技術聚焦英語、中文、西班牙語等主流語種時,Omnilingual ASR將觸角伸向全球邊緣語言羣體。測試顯示,在其支持的1600種語言中,78%的語種詞錯率(WER),即使在數據極度稀缺的小語種中,仍有36%實現低於10%的錯誤率——這一表現遠超此前任何多語言ASR系統,真正讓“可用語音技術”覆蓋到非洲部落、南美原住民、東南亞少數民族等長期被忽視的羣體。

image.png

幾段音頻,教會AI一門新語言

Omnilingual ASR的核心突破在於其上下文少樣本學習能力。用戶只需提供少量帶標註的音頻-文本對(如3–5句),系統即可通過元學習機制快速適配新語種,無需海量數據或專業訓練流程。這一設計使模型理論支持語言數躍升至5400種以上,幾乎涵蓋所有擁有文字記錄的語言,爲全球語言多樣性保護提供技術基石。

開源+社區共建,尊重每一種文化聲音

Meta並未將技術封閉於實驗室,而是完全開源模型與工具鏈,並聯合全球數十個語言保護組織、本土社區共同採集語音數據,確保發音、語調與文化語境的真實還原。在巴布亞新幾內亞,當地居民正用該系統錄製祖輩口述歷史;在喜馬拉雅山區,僧侶們開始將經文語音數字化——AI不再是外來工具,而成爲文化傳承的夥伴。

image.png

一場語言平權的數字革命

Omnilingual ASR的意義遠超技術指標。它標誌着AI從“服務主流”轉向“賦能邊緣”,從“技術中心主義”走向“文化包容主義”。當一名使用僅千人母語的孩童,也能通過語音與數字世界對話,技術才真正實現了其普惠價值。

AIbase認爲,Meta此舉不僅鞏固其在多模態AI領域的領導地位,更重新定義了科技公司的社會責任——真正的創新,是讓最沉默的聲音也能被聽見。在這場消除語言鴻溝的進程中,Omnilingual ASR或許正是那個讓世界“衆聲喧譁”的開端。