第28回中国北京国際科学技術産業博覧会で開催された中、チベット語を「理解」し、チベット語の思考で創作を行うことができる大規模モデルが注目を集めた。このモデルは「DeepZang」と呼ばれ、チベット大学の研究チームが深く関与して開発した。これはAIが多言語処理において突破を遂げたことを示すだけでなく、少数民族言語がグローバルなデジタル化の流れに加速的に組み込まれていることを示している。

長期間にわたり、主に中国語や英語を核心として訓練される一般的な大規模モデルは、チベット語などの少数民族言語を処理する際に、翻訳風味が強く、文脈が生硬になるなど「不適応」の現象があった。このような状況を打破するために、研究チームは約7,000万件のチベット語と中国語の平行文書を収集し、30,500時間を超える音声データを収集した。これはワージャン、カンバ、アンドゥの3つのチベット語方言地域を全面的にカバーしている。

このモデルの特徴はその「元語思考」能力である。博覧会の現場では、非常に実用的な機能を見せた。例えば、ヤクの取引契約の作成、親への賛美詩の創作、専門的な栄養アドバイスなど、AIの回答は正確でチベット語独特の文化的な雰囲気を持っている。また、声紋認識と方言分類技術を組み合わせることで、チベット語の口語方言の違いによるコミュニケーションの問題を効果的に解決した。文字のレベルが低いユーザーでも、音声を通じて簡単にやりとりできる。

技術の進歩は直接的に生産性の向上につながる。チベット山南で翻訳業務をしているロサン・ドンユー氏は、「AI補助翻訳により、以前は3人で分担し、40分かかっていた原稿が、現在では1人が20分以内で完了できるようになった」と述べた。現在、「DeepZang」のユーザー数は30万人を超え、そのうち18〜40歳の若い層が七割以上を占め、対象範囲はチベット、青海、四川、甘粛などの遠隔地まで広がっている。

これほど優れた性能を持つにもかかわらず、チベット語AIの商業化の道には、計算力コストが高額であることや資金の圧力などの課題が存在する。関係者は、初参加の博覧会が同様の志を持つパートナーを探し、計算力とビジネスの閉ループの課題を共に克服したいとの願いからである。チベット全土での5Gネットワークおよび電力インフラの整備が進むにつれて、チベット語AIは今後、チベット語使用者と現代のデジタル世界をつなぐ堅固なブリッジとなることが期待されている。