Meta 最近宣佈與聯合國教科文組織(UNESCO)合作推出一項新的語言技術夥伴計劃,旨在收集多種語言的語音錄音和文字記錄,以推動未來開放可用的人工智能(AI)發展。這項計劃特別關注那些在數字環境中被忽視的少數民族語言。
根據 Meta 的介紹,該計劃希望吸引合作伙伴,提供超過10小時的語音錄音及其轉錄內容、豐富的書面文本,以及翻譯句子的集合。Meta 希望通過與合作伙伴的共同努力,將這些語言整合到其 AI 語音識別和翻譯模型中,最終形成的成果將以開源形式發佈。

圖源備註:圖片由AI生成,圖片授權服務商Midjourney
截至目前,已確認的合作伙伴包括加拿大北部的努納武特地區政府,該地區部分居民使用一種被稱爲因紐特語的語言。Meta 在其博客中表示:“我們的努力特別聚焦於服務不足的語言,以支持聯合國教科文組織的工作。最終,我們的目標是創建智能系統,能夠理解並回應複雜的人類需求,無論語言或文化背景如何。”
爲了配合這一計劃,Meta 還將發佈一個開放源代碼的機器翻譯基準,旨在評估語言翻譯模型的性能。這個基準由語言學家設計,支持七種語言,並可通過 AI 開發平臺 Hugging Face 進行訪問和貢獻。
Meta 將這兩項舉措視爲慈善行動,但公司也因此將受益於其語音識別和翻譯模型的升級。Meta 持續擴展其 AI 助手 Meta AI 支持的語言數量,並測試例如 Instagram Reels 中語音翻譯的功能,允許創作者對其語音進行配音和自動同步。
儘管 Meta 在語言處理方面的努力值得關注,但該公司在非英語內容的處理上曾受到不少批評。有報告顯示,Facebook 在處理意大利語和西班牙語的 COVID-19虛假信息時,幾乎有70% 的內容未被標記,而英語內容的未標記比例僅爲29%。此外,泄露的文件顯示,阿拉伯語內容常常被錯誤標記爲仇恨言論。Meta 表示,正採取措施改善其翻譯和內容審覈技術,以應對這些挑戰。
