上海 AI 實驗室與語料數據聯盟發佈了 “書生・萬卷”1.0 多模態預訓練語料,包含文本、圖文和視頻數據集。這個開源語料庫總量超過 2TB,經過細粒度清洗和去重,具備多元融合、精細處理和易用高效的特點。該語料庫的發佈有助於推動大模型的應用和創新,降低大模型技術的門檻。