9月18日、昆明で開催された2025年国家网络安全宣伝週の人工知能安全統治サブフォーラムにおいて、中国語インターネットベース語料3.0が正式に発表されました。この新バージョンのデータ量は驚くほど120GBに達し、大規模モデルのトレーニングや人工知能のさらなる発展を支える信頼性のあるデータサポートを提供することを目的としています。
中国語インターネットベース語料3.0の発表は、中央ネットワーク情報弁公室の指導の下、中国ネットワーク空間安全協会と国家インターネット緊急対応センターなどの団体が共同で協力して成し遂げた成果です。今回の語料の開発と構築は、企業、大学、研究機関との密接な協力により実現され、ネットワーク安全協会が設立した人工知能安全統治専門委員会が構築した語料共用・共有メカニズムを活用しました。前2バージョンと比較して、3.0バージョンは情報源の範囲を広げ、さらにデータの品質を向上させました。

図の出典コメント:画像はAIによって生成され、画像ライセンス提供者であるMidjourneyより提供されています。
データ処理に関して、語料3.0は厳格な情報源選定、コンテンツフィルタリング、データ重複除去などの細かな加工処理を経ています。これらの措置により、公開されたデータがより信頼性があり、違法および不適切な情報をフィルターにかけることができ、人工知能の研究と応用に、より健全な環境を提供することができます。
ユーザーは、中国ネットワーク空間安全協会のウェブサイトにログインし、「中国語インターネット語料リソースプラットフォーム」へのリンクをクリックし、登録と認証を行うことで関連語料をダウンロードできます。この担当者は、「中国語インターネットベース語料3.0の導入は、各界が高品質な中国語語料に対して行っている努力と成果を示すものであり、今後も中国語インターネットベース語料の建設を強化し、人工知能技術の革新と産業発展を支えていく」と述べました。
中国語インターネットベース語料3.0の発表は、人工知能の発展に新たな活力を注入し、関連分野の研究にさらに堅固な基盤を提供するものです。
