正文

AI2 發佈大語言模型開源數據集 Dolma 包含 3 萬億個 token

aibase

發布於AI新閒資訊

時間 :Aug 24, 2023

閱讀 :1分鐘

美國艾倫人工智能研究所最近發佈了名爲 Dolma 的開源數據集，包含了 3 萬億個 token。這個數據集將爲 AI2 正在開發的開放語言模型 OLMo 提供基礎，計劃於 2024 年初發布。Dolma 的數據來自廣泛的來源，包括網絡內容、學術出版物、代碼和書籍等。這個數據集是目前公開可用的同類數據集中最大的一個。

相關推薦

OpenAI人才流動：前研究員田永龍入職騰訊，深耕視覺語言模型研發

OpenAI前研究員田永龍加盟騰訊大語言模型部，專注視覺語言模型研發。此舉被視爲騰訊強化多模態大模型佈局的關鍵引援，凸顯前沿人才爭奪激烈。

以 AI 治理 AI：Reddit 升級自動化系統，日均攔截 2300 萬條垃圾信息

Reddit 利用升級的大語言模型結合自動化工具，精準監測並打擊高度隱蔽的AI生成垃圾內容，包括虛假行爲與人爲炒作，全力守護社區內容真實性。

Anthropic發佈重磅大模型Claude Sonnet 5：性能直逼旗艦，價格卻大跳水

Anthropic發佈新中高階模型Claude Sonnet 5，主打性價比，性能大幅逼近旗艦Opus系列。該模型具備迄今最強代理能力，可自主規劃複雜任務、自查輸出，並靈活調用瀏覽器與終端等外部工具，在推理、編程和知識任務上表現突出。

降本增效大動作：Meta 大規模啓用 AI 接管內容審覈

Meta在扎克伯格力推AI的背景下，加速用大語言模型取代人工審覈，已將AI深度融入內容與廣告合規審查。目前平臺約50%的內容審覈已由AI完成，旨在優化成本與效率。

大模型長文本迎來新突破，智譜AI正式開源旗艦模型GLM-5.2

智譜AI發佈新一代開源旗艦模型GLM-5.2，專攻長程任務，支持1M無損上下文，編程效率大幅提升。採用極寬鬆MIT協議，開發者和企業可自由下載、商用部署。

AIBase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2026AIBase