智源研究院聯合拓爾思、中科聞歌共建了 “中文互聯網語料庫”(CCI),該語料庫經過嚴格的篩選和清洗,首期開放的數據規模爲 104GB,時間跨度爲 2001 年至 2023 年。智源研究院表示將繼續擴充數據來源、完善數據處理流程,並開放其他高質量中文數據集,如 WUDAO copora、COIG 和 MTP。此舉旨在爲大數據和人工智能行業提供安全、可靠的語料資源。