9月18日,在昆明舉行的2025年國家網絡安全宣傳週人工智能安全治理分論壇上,中文互聯網基礎語料3.0正式發佈。這一新版本的數據量達到了驚人的120GB,旨在爲大模型訓練和人工智能的進一步發展提供可靠的數據支持。
中文互聯網基礎語料3.0的發佈,是在中央網信辦的指導下,由中國網絡空間安全協會與國家互聯網應急中心等單位協同合作的成果。此次語料的開發與構建,得益於企業、高校和科研單位之間的緊密合作,充分利用了網安協會人工智能安全治理專委會建立的語料共建共享機制。與前兩版相比,3.0版本在信源範圍上進行了擴大,進一步提升了數據的質量。

圖源備註:圖片由AI生成,圖片授權服務商Midjourney
在數據處理方面,語料3.0經過了嚴格的信源篩選、內容過濾和數據去重等一系列細緻的加工處理措施。這些措施確保了發佈的數據更加可信,有助於過濾掉違法和不良信息,爲人工智能的研究和應用提供一個更爲健康的環境。
用戶可以通過登錄中國網絡空間安全協會網站,點擊 “中文互聯網語料資源平臺” 鏈接,註冊並認證後下載相關語料。該負責人表示,中文互聯網基礎語料3.0的推出標誌着各界對高質量中文語料的共同努力與成果,未來還將繼續加強中文互聯網基礎語料的建設,以支撐人工智能技術的創新與產業發展。
中文互聯網基礎語料3.0的發佈,無疑爲人工智能的發展注入了新的動力,也爲相關領域的研究提供了更爲堅實的基礎。
