在人工智能快速發展的今天,一個國際研究團隊正在爲歐洲AI語言模型的發展鋪平道路。他們推出了名爲MOSEL(Massive Open-source compliant Speech data for European Languages)的項目,爲歐盟 24 種官方語言編制了一個全面的開源語音數據集。這一舉措旨在推動歐洲開放AI語言模型的發展,挑戰目前由英語數據集和大型科技公司專有系統主導的局面。
MOSEL項目彙集了來自 18 個不同來源的語音數據,包括CommonVoice、LibriSpeech和VoxPopuli等知名項目。這個龐大的數據庫包含了帶轉錄的語音錄音和未標記的音頻數據,其中尤爲珍貴的是505, 000 小時的帶轉錄數據。
然而,數據在各種語言間的分佈極不均衡。英語擁有超過437, 000 小時的標記數據,而馬耳他語或愛爾蘭語等語言僅有幾小時的數據。爲了改善資源匱乏語言的數據狀況,研究團隊採用了創新方法:利用OpenAI的Whisper AI模型,自動轉錄了額外441, 000 小時的未標記音頻數據。
研究團隊解釋道,儘管自動轉錄並非完美,但它能爲那些缺乏人工轉錄數據的語言提供大量訓練材料。這些生成的轉錄文本以知識共享CC-BY許可發佈,允許在註明出處的情況下自由使用。
自動轉錄的挑戰在馬耳他語的案例中尤爲明顯。Whisper模型在處理馬耳他語時的詞錯誤率超過80%,意味着平均每五個詞中就有四個被錯誤識別。這凸顯了某些語言在自動處理方面仍面臨的巨大挑戰。
儘管如此,研究團隊認爲這些自動轉錄可以作爲進一步改進的起點。他們計劃爲代表性不足的語言收集更多數據,不斷完善MOSEL數據庫。
MOSEL項目的整個數據集已在GitHub上免費提供,旨在爲研究人員和開發者提供便捷的歐洲語言語音數據訪問渠道。這一開放共享的舉措,不僅體現了科研界的合作精神,也爲歐洲AI語言模型的發展注入了新的活力。
MOSEL項目的意義遠不止於數據本身。它代表了歐洲在AI領域追求技術自主的努力,有望推動更多元化、更具包容性的AI語言模型發展。通過提供多語言的開源數據,MOSEL爲小語種在AI時代的保護和發展提供了寶貴資源,有助於減少AI技術在語言處理上的偏見和不平等。
隨着MOSEL數據庫的不斷完善和擴展,我們可以期待看到更多基於歐洲語言的AI應用和服務。這不僅將推動歐洲數字經濟的發展,還將爲全球AI語言技術的多樣性做出重要貢獻。