IBM公佈了其完整的6.48 TB LLM訓練數據集

IBM 於五月份開源了適用於企業應用場景的 Granite13B LLM 模型。現在，IBM 的 AI 平臺產品副總裁阿曼德・魯伊茲（Armand Ruiz）公開了用於訓練 Granite13B 的全面6.48TB 數據集的完整內容。

這個數據集經過嚴格的預處理後，縮減爲2.07TB，減少了68%。魯伊茲強調，這一步驟對於確保高質量、無偏見、符合倫理和法律的數據集，以滿足企業應用場景需求至關重要。

數據集由多個來源精心策劃而來，包括:

- arXiv:超過240萬篇科學論文預印本。

- Common Crawl:開放的網絡抓取數據庫。

- DeepMind Mathematics:數學問答對。

- Free Law:來自美國法院的公共領域法律意見。

- GitHub Clean:來自 CodeParrot 的代碼數據。

- Hacker News:2007-2018年的計算機科學和企業家新聞。

- OpenWeb Text:OpenAI 的 Web Text 語料庫的開源版本。

- Project Gutenberg（PG-19）:專注於早期作品的免費電子書。

- Pubmed Central:生物醫學和生命科學論文。

- SEC Filings:美國證券交易委員會（SEC）的10-K/Q 提交文件(1934-2022年)。

- Stack Exchange:Stack Exchange 網絡上的用戶貢獻內容。

- USPTO:1975年至2023年5月間授予的美國專利。

- Webhose:將非結構化網絡內容轉換爲機器可讀數據。

- Wikimedia:八個英文維基媒體項目。

預處理流程包括文本提取、去重、語言識別、句子分割、仇恨、濫用和粗話標註、文檔質量標註、URL 屏蔽標註、過濾和標記化。

這些步驟涉及基於設定閾值的標註和過濾，確保最終數據集對模型訓練具有最高質量。

IBM 發佈了 Granite 代碼模型的四個版本，參數範圍從30億到340億。這些模型已在一系列基準測試中進行了測試，並在許多任務中勝過其他可比模型，如 Code Llama 和 Llama3。

劃重點:

⭐ IBM 發佈了用於訓練 Granite13B LLM 模的完整6.48TB 數據集。

⭐ 數據集經過嚴格的預處理後，縮減爲2.07TB，減少了68%。

⭐ IBM 發佈了四個 Granite 代碼模型的版本，參數範圍從30億到340億。

IBM 攜手 Groq:用 LPU 技術爲企業 AI 提速五倍，全面升級 watsonx 平臺

IBM與芯片初創公司Groq達成戰略合作，將Groq的高性能AI推理技術集成至watsonx平臺，旨在爲企業客戶提供更快、更具成本效益的AI解決方案。用戶可通過Watsonx Orchestrate直接訪問GroqCloud服務。Groq憑藉自研語言處理單元架構，在特定AI推理任務上聲稱比傳統GPU系統更快。

IBM公佈了其完整的6.48 TB LLM訓練數據集

相關推薦

IBM 發佈 Granite 4.0 Nano 模型，突破小型 AI 模型的性能極限

應對模型推理缺陷:蘋果MIND團隊加緊招聘AI人才

IBM 與 Groq 攜手推進企業級 AI 應用

IBM 攜手 Groq:用 LPU 技術爲企業 AI 提速五倍，全面升級 watsonx 平臺

Anthropic拿下IBM戰略合作：Claude大模型殺入企業級市場，OpenAI地位受到挑戰

IBM公佈了其完整的6.48 TB LLM訓練數據集

相關推薦

​IBM 發佈 Granite 4.0 Nano 模型，突破小型 AI 模型的性能極限

應對模型推理缺陷:蘋果MIND團隊加緊招聘AI人才

IBM 與 Groq 攜手推進企業級 AI 應用

IBM 攜手 Groq:用 LPU 技術爲企業 AI 提速五倍，全面升級 watsonx 平臺

Anthropic拿下IBM戰略合作：Claude大模型殺入企業級市場，OpenAI地位受到挑戰

IBM 發佈 Granite 4.0 Nano 模型，突破小型 AI 模型的性能極限