在廣州市的廣州大學,第十屆語言服務高級論壇暨2025年度國家應急語言服務團學術年會於12月6日至7日成功舉行。此次大會上,廣州大學的哲學社會科學重點實驗室發佈了全新的 AI-DimSum 粵語語料庫平臺,這標誌着粵語的數字化發展邁入了一個嶄新的階段。
粵語,作爲漢語的一個重要方言,全球使用人數超過億人,但在互聯網領域卻一直被視爲低資源語言。對此,廣州大學網絡空間安全學院的教授齊佳音指出,AI-DimSum 平臺圍繞 “數字中文建設” 和粵港大灣區的文化數字化需求,致力於構建一個基於嶺南文化、面向人工智能應用的多模態粵語語料數據生態系統。該系統遵循 “標準先行、數據可溯、服務可用” 的原則,爲粵語的學習和研究提供了良好的基礎。

圖源備註:圖片由AI生成,圖片授權服務商Midjourney
AI-DimSum 平臺設有七個子系統,包括語料採集、標註、模型對接、確權檢索、質量評估、管理以及應用商店等,形成了一個完整的數據處理鏈條。這意味着從數據的採集到最終的應用發佈,整個過程都可以實現高效的協同工作,推動粵語語料庫的構建與管理。
目前,AI-DimSum 粵語語料庫已匯聚了超過100萬字的文本數據,涵蓋新聞、文學和社交媒體等多個領域。此外,該平臺還完成了3000小時的高保真語音標註及超過1TB 的音視頻資料,其中包括粵語字幕的熱門動畫和影視作品,如《功夫熊貓》和《小豬佩奇》。平臺提供的多用途粵語生活場景音頻和文字語料也超過1萬句,並收錄了豐富的嶺南文化圖像素材,累計達到10000張。
值得一提的是,AI-DimSum 還構建了一個包含6669條權威詞條和30000條擴展詞條的粵語安全語料庫,以及超過20萬道粵語內容安全多模態評測題。這些成果不僅爲粵語的學習和應用提供了豐富的資源,也將爲未來的粵語大模型開發奠定堅實的基礎。
