粵語數字化里程碑!廣州大學發佈 AI-DimSum 多模態語料庫平臺

12月6日至7日，第十屆語言服務高級論壇在廣州大學舉行。會上，粵語語料庫建設與大模型評測實驗室重磅發佈了其研發的 AI-DimSum 多模態粵語語料庫平臺，標誌着在全球擁有上億用戶的粵語在數字化發展中邁入新階段。

突破低資源困境 廣州大學教授齊佳音介紹，粵語在網絡世界中屬於“低資源語言”。該平臺圍繞“數字中文建設”和“大灣區文化數字化”需求，構建了一個基於嶺南文化、面向AI應用的多模態語料數據生態系統，遵循“標準先行、數據可溯、服務可用”原則。

虛擬偶像虛擬主播虛擬人演唱2 AI繪畫

一體化、模塊化基礎設施 AI-DimSum平臺由語料採集、標註、大模型對接、確權檢索、質量評估、管理及應用商店等七個子系統構成，實現了從數據採集到模型接入與應用發佈的一體化、模塊化流程。

海量語料支撐 該語料庫匯聚了豐富的多模態資源，爲AI訓練提供堅實基礎:

該平臺的發佈將極大提升粵語在大模型時代的應用能力和文化傳承價值。

京東雲JoyBuilder支持GR00T N1. 5 千卡訓練，引領具身智能邁向規模化落地

京東雲JoyBuilder平臺升級，成功支撐GR00T N1.5模型完成千卡級訓練，成爲行業首家支持具身智能千卡級LeRobot開源訓練框架的AI開發平臺。訓練效率較開源社區版本提升3.5倍，通過軟硬件深度調優和算法突破，大幅提升訓練效率與穩定性，顯著縮短訓練時間。

粵語數字化新突破！AI-DimSum 多模態語料庫平臺正式上線