12月6日から7日にかけて、第十回言語サービス高級フォーラムが広州大学で開催されました。会議では、広州大学が開発したAI-DimSumマルチモーダル広東語コーパスプラットフォームが正式に発表され、広東語が世界中で1億人以上ものユーザーを持つ言語としてデジタル化の新たな段階に入ることを示しました。
低リソース状況の突破 広州大学の斉佳音教授によると、広東語はネットワーク上では「低リソース言語」とされています。このプラットフォームは、「デジタル中国建設」と「大湾区文化のデジタル化」のニーズに基づき、岭南文化を基盤とし、AIアプリケーション向けのマルチモーダルコーパスデータエコシステムを構築し、「標準先行、データ追跡可能、サービス利用可能」の原則に従って構築されています。

統合的・モジュール型インフラ AI-DimSumプラットフォームは、コーパス収集、ラベリング、大規模モデルへの接続、権利確認検索、品質評価、管理およびアプリストアなどの7つのサブシステムで構成されており、データ収集からモデル接続およびアプリケーション配信までの統合的・モジュール型のプロセスを実現しています。
膨大なコーパスの支援 このコーパスには豊富なマルチモーダルリソースが集められており、AIトレーニングの堅実な基盤となっています:
テキスト: 100万字以上(ニュース、文学など)。
音声および動画: 3,000時間以上の高保真音声ラベリングおよび1TB以上の音声および映像資料。
映画およびテレビ: 『功夫ポー』『大聖帰来』『外資系妻の地元郎』などの広東語字幕とラベリングが付いた作品が含まれています。
評価: 20万問以上の広東語大規模モデルコンテンツセキュリティマルチモーダル評価問題が構築されています。
