12月6日至7日,第十屆語言服務高級論壇在廣州大學舉行。會上,粵語語料庫建設與大模型評測實驗室重磅發佈了其研發的 AI-DimSum 多模態粵語語料庫平臺,標誌着在全球擁有上億用戶的粵語在數字化發展中邁入新階段。
突破低資源困境 廣州大學教授齊佳音介紹,粵語在網絡世界中屬於“低資源語言”。該平臺圍繞“數字中文建設”和“大灣區文化數字化”需求,構建了一個基於嶺南文化、面向AI應用的多模態語料數據生態系統,遵循“標準先行、數據可溯、服務可用”原則。

一體化、模塊化基礎設施 AI-DimSum平臺由語料採集、標註、大模型對接、確權檢索、質量評估、管理及應用商店等七個子系統構成,實現了從數據採集到模型接入與應用發佈的一體化、模塊化流程。
海量語料支撐 該語料庫匯聚了豐富的多模態資源,爲AI訓練提供堅實基礎:
文本:超過100萬字(涵蓋新聞、文學等)。
音視頻:完成3000小時高保真語音標註及1TB以上音視頻資料。
影視:包含《功夫熊貓》《大聖歸來》《外來媳婦本地郎》等帶有粵語字幕與標註的作品。
評測:構建了超過20萬道粵語大模型內容安全多模態評測題。
該平臺的發佈將極大提升粵語在大模型時代的應用能力和文化傳承價值。
