広州市の広州大学で、第10回言語サービスハイレベルフォーラムおよび2025年度国家緊急言語サービスチーム学術年会が12月6日から7日にかけて成功裏に開催されました。この会議では、広州大学の哲学社会科学重点実験室が新しいAI-DimSum広東語コーパスプラットフォームを発表し、これにより広東語のデジタル化の段階が新たな段階へと進みました。
広東語は中国語の重要な方言であり、世界中で何億人もの人々が使用していますが、インターネット分野では低リソース言語と見なされてきました。これについて、広州大学ネットワークセキュリティ学院の斉佳音教授は、AI-DimSumプラットフォームは「デジタル中国建設」と広東・香港・マカオ大湾区の文化デジタル化のニーズに焦点を当て、岭南文化に基づき、人工知能アプリケーション向けのマルチモーダル広東語コーパスデータエコシステムを構築することを目指していると述べました。このシステムは「標準を先にし、データを追跡可能にし、サービスを利用可能にする」原則に従っており、広東語の学習と研究に良い基盤を提供しています。

図の出典:画像はAIによって生成され、画像ライセンス提供元はMidjourneyです。
AI-DimSumプラットフォームには7つのサブシステムがあり、語料収集、ラベリング、モデル接続、権利確定検索、品質評価、管理、アプリストアなどが含まれており、データ処理の完全なチェーンを形成しています。これは、データの収集から最終的な応用公開に至るまで、すべてのプロセスで効率的な協働作業が可能になることを意味しており、広東語コーパスの構築と管理を推進します。
現在、AI-DimSum広東語コーパスには100万字以上のテキストデータが集められており、ニュース、文学、ソーシャルメディアなど複数の分野をカバーしています。また、このプラットフォームは3000時間以上の高精細音声ラベリングと1TB以上の音声・動画資料を完了しており、広東語字幕付きの人気アニメや映画作品、例えば『ポークン・パンダ』や『ペッパー・ピッグ』などが含まれています。プラットフォームが提供する多用途の広東語生活シーンの音声とテキストデータも1万句以上あり、豊富な嶺南文化画像素材を含んでおり、合計1万枚以上が収録されています。
