美國艾倫人工智能研究所最近發佈了名爲 Dolma 的開源數據集,包含了 3 萬億個 token。這個數據集將爲 AI2 正在開發的開放語言模型 OLMo 提供基礎,計劃於 2024 年初發布。Dolma 的數據來自廣泛的來源,包括網絡內容、學術出版物、代碼和書籍等。這個數據集是目前公開可用的同類數據集中最大的一個。