IBM 於五月份開源了適用於企業應用場景的 Granite13B LLM 模型。現在,IBM 的 AI 平臺產品副總裁阿曼德・魯伊茲(Armand Ruiz)公開了用於訓練 Granite13B 的全面6.48TB 數據集的完整內容。

image.png

這個數據集經過嚴格的預處理後,縮減爲2.07TB,減少了68%。魯伊茲強調,這一步驟對於確保高質量、無偏見、符合倫理和法律的數據集,以滿足企業應用場景需求至關重要。

數據集由多個來源精心策劃而來,包括:

- arXiv:超過240萬篇科學論文預印本。

- Common Crawl:開放的網絡抓取數據庫。

- DeepMind Mathematics:數學問答對。

- Free Law:來自美國法院的公共領域法律意見。

- GitHub Clean:來自 CodeParrot 的代碼數據。

- Hacker News:2007-2018年的計算機科學和企業家新聞。

- OpenWeb Text:OpenAI 的 Web Text 語料庫的開源版本。

- Project Gutenberg(PG-19):專注於早期作品的免費電子書。

- Pubmed Central:生物醫學和生命科學論文。

- SEC Filings:美國證券交易委員會(SEC)的10-K/Q 提交文件(1934-2022年)。

- Stack Exchange:Stack Exchange 網絡上的用戶貢獻內容。

- USPTO:1975年至2023年5月間授予的美國專利。

- Webhose:將非結構化網絡內容轉換爲機器可讀數據。

- Wikimedia:八個英文維基媒體項目。

預處理流程包括文本提取、去重、語言識別、句子分割、仇恨、濫用和粗話標註、文檔質量標註、URL 屏蔽標註、過濾和標記化。

這些步驟涉及基於設定閾值的標註和過濾,確保最終數據集對模型訓練具有最高質量。

IBM 發佈了 Granite 代碼模型的四個版本,參數範圍從30億到340億。這些模型已在一系列基準測試中進行了測試,並在許多任務中勝過其他可比模型,如 Code Llama 和 Llama3。

劃重點:

⭐ IBM 發佈了用於訓練 Granite13B LLM 模的完整6.48TB 數據集。

⭐ 數據集經過嚴格的預處理後,縮減爲2.07TB,減少了68%。

⭐ IBM 發佈了四個 Granite 代碼模型的版本,參數範圍從30億到340億。