在2024北京文化論壇上,北京智源人工智能研究院(BAAI)宣佈正式發佈新一代中文互聯網語料庫CCI3.0(Chinese Corpora Internet),進一步推動數據共建共享。CCI3.0包含1000GB的數據集及498GB的高質量子集CCI3.0-HQ,是繼2023年11月首次開源CCI1.0和2024年4月發佈CCI2.0之後的又一次重要更新。

首次開源以來,CCI系列數據集的下載量已超過4萬次,服務於500多個企事業單位的大模型研發,有效支撐了中國人工智能產業生態的發展。

微信截圖_20240925135352.png

CCI3.0的特點包括:

  1. 規模擴大,來源廣泛:CCI3.0收錄了超過2.68億個網頁,內容覆蓋新聞、社交媒體、博客等多個領域。相較於CCI2.0,CCI3.0的數據規模擴大了近一倍,數據來源機構增加至20多家,顯著提升了數據的覆蓋面和代表性。

  2. 精細標註,賦能應用:CCI3.0對原始數據進行了包括語法、句法、教育程度等10多個維度的細粒度分類和詳細標記,以篩選出高價值數據。此外,CCI3.0HQ是基於70B模型自動標註樣本,然後通過訓練小尺寸質量模型進行優選得到的高質量子集,更好地滿足不同行業和應用場景的需求。

  3. 效果顯著,更懂中文:在500M模型從零開始訓練100B數據的對比實驗中,CCI3.0在單獨中文語料訓練和中英文語料混合訓練的效果上均優於其他數據集,而CCI3.0HQ的效果則更加顯著。

智源研究院表示,未來將繼續與行業生態合作,推動語料庫的共建共享,構建大規模、高質量、高知識密度的中文數據集,爲中國人工智能產業的發展做出更大的貢獻。

CCI3.0下載地址

Flopsera:

https://open.flopsera.com/flopsera-open/data-details/BAAI-CCI3

Huggingface:https://huggingface.co/datasets/BAAI/CCI3-Data

Datahub:

https://data.baai.ac.cn/details/BAAI-CCI3