重磅發佈！中文互聯網基礎語料3.0助力AI發展，數據量高達120GB

9月18日，在昆明舉行的2025年國家網絡安全宣傳週人工智能安全治理分論壇上，中文互聯網基礎語料3.0正式發佈。這一新版本的數據量達到了驚人的120GB，旨在爲大模型訓練和人工智能的進一步發展提供可靠的數據支持。

中文互聯網基礎語料3.0的發佈，是在中央網信辦的指導下，由中國網絡空間安全協會與國家互聯網應急中心等單位協同合作的成果。此次語料的開發與構建，得益於企業、高校和科研單位之間的緊密合作，充分利用了網安協會人工智能安全治理專委會建立的語料共建共享機制。與前兩版相比，3.0版本在信源範圍上進行了擴大，進一步提升了數據的質量。

代碼互聯網 (2)

圖源備註：圖片由AI生成，圖片授權服務商Midjourney

在數據處理方面，語料3.0經過了嚴格的信源篩選、內容過濾和數據去重等一系列細緻的加工處理措施。這些措施確保了發佈的數據更加可信，有助於過濾掉違法和不良信息，爲人工智能的研究和應用提供一個更爲健康的環境。

用戶可以通過登錄中國網絡空間安全協會網站，點擊 “中文互聯網語料資源平臺” 鏈接，註冊並認證後下載相關語料。該負責人表示，中文互聯網基礎語料3.0的推出標誌着各界對高質量中文語料的共同努力與成果，未來還將繼續加強中文互聯網基礎語料的建設，以支撐人工智能技術的創新與產業發展。

中文互聯網基礎語料3.0的發佈，無疑爲人工智能的發展注入了新的動力，也爲相關領域的研究提供了更爲堅實的基礎。

谷歌新研究：合成數據助力大模型，數學推理能力提升八倍

近期，谷歌、卡內基梅隆大學與 MultiOn 的研究團隊聯合發佈了一項關於合成數據在大模型訓練中應用的新研究。根據 AI 發展科研機構 Epoch AI 的報告，目前人類公開的高質量文本訓練數據大約有300萬億 tokens，但隨着大型模型如 ChatGPT 的快速發展，對訓練數據的需求正以指數級增長，預計在2026年前這些數據將被消耗殆盡，因此合成數據逐漸成爲重要的替代方案。研究人員探索了合成數據的兩種主要類型:正面數據和負面數據。正面數據是指來自高性能大模型（如 GPT-4和 Gemini1.5Pro）生成的正確

重磅發佈！中文互聯網基礎語料3.0助力AI發展，數據量高達120GB

相關推薦

拒絕被 AI“白嫖”!維基百科25週年簽下微軟、Meta 付費大單

摩爾線程重磅發佈 SimuMax 1.1 版本！分佈式訓練仿真工具全面升級

OpenAI 收購 Neptune,實驗監控神器入棧，GPT迭代速度或將翻倍

英偉達公開表示爲谷歌AI成就感到高興，但我們目前仍是行業領先

谷歌新研究：合成數據助力大模型，數學推理能力提升八倍