Google 近日在非洲正式推出名爲 WAXAL 的全新語音數據集。該項目涵蓋了阿喬利語、豪薩語、盧幹達語、約魯巴語等 21 種非洲語言,旨在解決長期以來非洲語言在 AI 系統中識別準確率低、錯誤頻出的“生存性問題”。
該項目的核心突破在於:
數據主權歸還:不同於以往巨頭掌控數據的模式,WAXAL 數據集的所有權完全歸屬於參與建設的非洲本地機構,而非 Google 本身。
規模龐大且專業:數據集包含超過 1.1 萬小時 的語音和近 200 萬條 錄音。其中包括約 1250 小時的轉寫語音,以及可用於文本轉語音(TTS)的高保真音頻。
賦能本地創新:項目以寬鬆許可方式開源,允許商業使用。目前,加納大學等機構已開始利用這些數據推進孕產婦健康等本地化 AI 應用研究。
儘管面臨語種複雜、缺乏聲調符號等技術挑戰,WAXAL 的發佈標誌着非洲正從單純的數據採集方轉變爲技術基礎設施的擁有者。Google 計劃未來將語種擴展至 27 種,進一步推動非洲 AI 話語權的提升。
