粵語數字化新突破！AI-DimSum 多模態語料庫平臺正式上線

在廣州市的廣州大學，第十屆語言服務高級論壇暨2025年度國家應急語言服務團學術年會於12月6日至7日成功舉行。此次大會上，廣州大學的哲學社會科學重點實驗室發佈了全新的 AI-DimSum 粵語語料庫平臺，這標誌着粵語的數字化發展邁入了一個嶄新的階段。

粵語，作爲漢語的一個重要方言，全球使用人數超過億人，但在互聯網領域卻一直被視爲低資源語言。對此，廣州大學網絡空間安全學院的教授齊佳音指出，AI-DimSum 平臺圍繞 “數字中文建設” 和粵港大灣區的文化數字化需求，致力於構建一個基於嶺南文化、面向人工智能應用的多模態粵語語料數據生態系統。該系統遵循 “標準先行、數據可溯、服務可用” 的原則，爲粵語的學習和研究提供了良好的基礎。

元宇宙科幻賽博朋克繪畫 (1)大模型

圖源備註：圖片由AI生成，圖片授權服務商Midjourney

AI-DimSum 平臺設有七個子系統，包括語料採集、標註、模型對接、確權檢索、質量評估、管理以及應用商店等，形成了一個完整的數據處理鏈條。這意味着從數據的採集到最終的應用發佈，整個過程都可以實現高效的協同工作，推動粵語語料庫的構建與管理。

目前，AI-DimSum 粵語語料庫已匯聚了超過100萬字的文本數據，涵蓋新聞、文學和社交媒體等多個領域。此外，該平臺還完成了3000小時的高保真語音標註及超過1TB 的音視頻資料，其中包括粵語字幕的熱門動畫和影視作品，如《功夫熊貓》和《小豬佩奇》。平臺提供的多用途粵語生活場景音頻和文字語料也超過1萬句，並收錄了豐富的嶺南文化圖像素材，累計達到10000張。

值得一提的是，AI-DimSum 還構建了一個包含6669條權威詞條和30000條擴展詞條的粵語安全語料庫，以及超過20萬道粵語內容安全多模態評測題。這些成果不僅爲粵語的學習和應用提供了豐富的資源，也將爲未來的粵語大模型開發奠定堅實的基礎。

粵語數字化里程碑!廣州大學發佈 AI-DimSum 多模態語料庫平臺

12月6日至7日，第十屆語言服務高級論壇在廣州大學舉行。會上，粵語語料庫建設與大模型評測實驗室發佈了AI-DimSum多模態粵語語料庫平臺，旨在突破粵語作爲“低資源語言”的數字化困境。該平臺圍繞“數字中文建設”和“大灣區文化數字化”需求，構建了多模態語料庫，推動粵語在人工智能時代的保護與發展。

Aaru Series A 幕後：Redpoint領投、多層估值低於10億，AI模擬人羣賽道再吸金

AI消費者研究平臺Aaru完成超5000萬美元A輪融資，由Redpoint Ventures領投。本輪採用多層估值結構，部分股份按10億美元定價，其餘給予更低估值以吸引特定投資者，最終整體估值低於10億美元。這種同輪多價機制在AI賽道日益常見，旨在平衡高估值宣傳與實際融資需求。

Perplexity 推出 BrowseSafe：爲 AI 瀏覽器代理保駕護航

Perplexity推出BrowseSafe系統，旨在實時防護AI瀏覽器代理免受網絡內容操控。該系統聲稱檢測Prompt注入攻擊的成功率達91%，優於GPT-5的85%和PromptGuard-2的35%，且運行速度快，可實時監測。隨着AI瀏覽器代理普及，此類安全方案愈發重要。

粵語數字化里程碑!廣州大學發佈 AI-DimSum 多模態語料庫平臺

粵語數字化新突破！AI-DimSum 多模態語料庫平臺正式上線

相關推薦

粵語數字化里程碑!廣州大學發佈 AI-DimSum 多模態語料庫平臺

Aaru Series A 幕後：Redpoint領投、多層估值低於10億，AI模擬人羣賽道再吸金

Perplexity 推出 BrowseSafe：爲 AI 瀏覽器代理保駕護航

ChatGPT“廣告烏龍”事件發酵：OpenAI承認“推薦失準”，緊急關閉購物提示功能

粵語數字化里程碑!廣州大學發佈 AI-DimSum 多模態語料庫平臺

粵語數字化新突破！AI-DimSum 多模態語料庫平臺正式上線

相關推薦

粵語數字化里程碑!廣州大學發佈 AI-DimSum 多模態語料庫平臺

Aaru Series A 幕後：Redpoint領投、多層估值低於10億，AI模擬人羣賽道再吸金

​Perplexity 推出 BrowseSafe：爲 AI 瀏覽器代理保駕護航

ChatGPT“廣告烏龍”事件發酵：OpenAI承認“推薦失準”，緊急關閉購物提示功能

粵語數字化里程碑!廣州大學發佈 AI-DimSum 多模態語料庫平臺

Perplexity 推出 BrowseSafe：爲 AI 瀏覽器代理保駕護航