Google 近日在非洲正式推出名为 WAXAL 的全新语音数据集。该项目涵盖了阿乔利语、豪萨语、卢干达语、约鲁巴语等 21 种非洲语言,旨在解决长期以来非洲语言在 AI 系统中识别准确率低、错误频出的“生存性问题”。

该项目的核心突破在于:

  • 数据主权归还:不同于以往巨头掌控数据的模式,WAXAL 数据集的所有权完全归属于参与建设的非洲本地机构,而非 Google 本身。

  • 规模庞大且专业:数据集包含超过 1.1 万小时 的语音和近 200 万条 录音。其中包括约 1250 小时的转写语音,以及可用于文本转语音(TTS)的高保真音频。

  • 赋能本地创新:项目以宽松许可方式开源,允许商业使用。目前,加纳大学等机构已开始利用这些数据推进孕产妇健康等本地化 AI 应用研究。

尽管面临语种复杂、缺乏声调符号等技术挑战,WAXAL 的发布标志着非洲正从单纯的数据采集方转变为技术基础设施的拥有者。Google 计划未来将语种扩展至 27 种,进一步推动非洲 AI 话语权的提升。