世界で最も標高の高い大規模言語モデルがついに登場しました。チベット大学と地元のスタートアップチームが共同で発表した「サンシャイン・チンヤン」V1.0が今日公開され、モデルのパラメータ数は千億を超え、トレーニングデータは288億トークンに達し、ニュース、法律、医学、教育、テクノロジーなどあらゆる分野をカバーしています。このモデルはチベット語のAIインフラの空白を初めて埋めました。
8月に国務院が発表した「人工知能+」行動意見は、チベットのAI開発を加速させる出発点と見なされています。現在、ラサ市中心部のコミュニティサービスセンターおよびゴンガ Airportターミナルでは、AIコールセンターとリアルタイム翻訳システムがすでに導入されています。進行中の青蔵科学調査では、「e科考」アプリケーションは衛星リンクを通じて3D画像の収集とクラウド上の秒単位での送信を実現し、野外データの整理時間が半分に短縮されました。

図の出典:AI生成された画像、著作権提供者:Midjourney
チベット語デジタル化の先駆者であるチベット大学のニマ・ザシ教授(中国科学院院士)は、「チベットのAIは『シーン応用』から『システム開発』へと進んでいる。核心的な突破口は語彙データにある」と述べています。若手起業家ダンツェン・ロブのチームは6年かけて7,000万語のチベット語と中国語の平行語彙データベースを構築し、140か国の多言語音声データベースも建設しました。これらのデータベースは「サンシャイン・チンヤン」と12月に公開予定のDeepZangモデルにデータ基盤として提供されます。
