5.7萬億個優質tokens的誕生：大語言模型訓練的 “神祕寶藏” TxT360

在 AI 的世界裏，數據就像是金礦，越豐富越閃亮。最近，LLM360推出了一個令人矚目的數據集 TxT360，專爲大語言模型訓練量身定做。這個龐然大物不僅收錄了來自各行各業的高質量文本數據，更是經歷了一場全球範圍的去重大作戰，最終匯聚成5.7萬億個優質 tokens，真可謂是 “數據界的百寶箱”!

TxT360的魅力在於其超大的規模和超高的質量，完勝現有的 FineWeb 和 RedPajama 等數據集。這份數據集從99個 Common Crawl 快照中抓取了互聯網的精華，同時還特別挑選了14個高質量的數據源，比如法律文檔和百科全書，讓它的內容不僅豐富多樣，還相當靠譜。

更酷的是，TxT360給用戶提供了一種 “數據權重調整配方”，讓你可以根據自己的需求靈活調整不同數據源的權重。這就好比在烹飪時，你可以根據口味隨意調配各種材料，確保每一口都美味無比。

當然，去重技術也是 TxT360的一大亮點。通過複雜的去重操作，這個數據集有效地解決了訓練過程中的數據冗餘和信息重複問題，確保每一個 token 都是獨一無二的。同時，項目組還通過正則表達式手段，聰明地移除了文檔中的個人身份信息，比如電子郵件和 IP 地址，從而確保數據的隱私和安全性。

TxT360的設計不僅關注規模，還兼顧了質量。結合網絡數據和精選數據源的優勢，它讓研究人員能夠精確控制數據的使用和分佈，就像是擁有了一個操控魔法的遙控器，可以隨意調整數據的比例。

在訓練效果方面，TxT360也不甘示弱。它通過簡單的上採樣策略，使得數據量大增，最終創造出一個超過15萬億 tokens 的數據集。在一系列關鍵評估指標上，TxT360的表現都優於 FineWeb，尤其在 MMLU 和 NQ 等領域，顯示了超強的學習能力。而結合代碼數據（如 Stack V2）後，學習曲線更加穩定，模型性能也有了明顯提升。

詳細介紹：https://huggingface.co/spaces/LLM360/TxT360

谷歌全新 AI 功能上線：視頻分析、語音提問，讓搜索更智能！

谷歌最近推出了一系列全新的 AI 驅動功能，讓用戶在搜索引擎和 Google Lens 的使用體驗更加豐富。根據谷歌搜索副總裁 Liz Reid 的介紹，Google Lens 現在每個月處理近200億次視覺查詢，用戶可以通過拍攝視頻並提問的方式，輕鬆獲得 AI 生成的摘要。只需要在 Google 應用中按住快門按鈕併發問，系統就能同時分析視頻和問題，爲用戶提供簡潔明瞭的答案。此外，用戶也可以對任何通過 Lens 拍攝的照片提問。這項功能在 Android 和 iOS 的 Google 應用上都可以使用，不過目前只支持英語查詢。爲了提升用

OpenAI Sora負責人加盟 Google DeepMind，負責“世界模擬器”項目

最近，OpenAI 的 Sora 視頻生成系統的研究負責人 Tim Brooks 在社交媒體上宣佈，他將加入 Google DeepMind，繼續在視頻生成和世界模擬器方面開展工作。Brooks 表示，他對與 DeepMind 這樣一支才華橫溢的團隊合作感到非常興奮，並對自己在 OpenAI 度過的美好兩年時光表示感謝，尤其是在 Sora 項目上所取得的成就。圖源備註:圖片由AI生成，圖片授權服務商MidjourneySora 自今年2月發佈以來，引起了廣泛關注，並對競爭對手形成了壓力。Brooks 的轉會被視爲 Google 在人工智能視頻生成領域擴展實力的一部分。D

Anthropic 通過“上下文檢索”新方法提高 RAG 準確性

在人工智能領域，如何準確地從知識數據庫中獲取信息一直是個大難題。近日，人工智能公司 Anthropic 宣佈推出了一種名爲 “上下文檢索” 的新方法，旨在提高知識檢索的精確度。該方法通過在檢索時添加更多的上下文信息，幫助 AI 系統提供更準確的答案。現有的檢索增強生成（RAG）系統通常將文檔分割成小塊進行索引，這樣一來，重要的上下文信息可能會被忽略。Anthropic 的解決方案是在每個小塊之前加上簡短的文檔摘要，這些摘要通常不超過100個字。例如，原本的文本片段 “該公司的

Inflection AI拋棄Nvidia，選擇了英特爾Gaudi 3加速器！

最近，Inflection AI 在其最新的企業平臺上做出了一個引人注目的決定:放棄使用 Nvidia 的 GPU，轉而採用 Intel 的 Gaudi3加速器。這一變化標誌着該公司在 AI 領域的戰略調整，之前其 “Pi” 客戶應用都是基於 Nvidia 的 GPU 來運行的。現在，Inflection3.0將依託於 Gaudi3，用戶可以選擇在本地或雲端的 Tiber AI Cloud 上運行。圖源備註：圖片由AI生成，圖片授權服務商MidjourneyInflection AI 成立於2022年，最初專注於開發一款名爲 Pi 的對話式個人助手。然而，隨着創始人 Mustafa Suleyman 和 Karén Simonyan 在春季離職加

Cursor 團隊揭祕：我們如何讓 AI 編程變得更簡單、更智能！

最近，AI 編程工具 Cursor 如火如荼，迅速成爲編程界和人工智能領域的焦點。Cursor 是一款基於 VS Code 的代碼編輯器，它爲 AI 輔助編程帶來了衆多強大功能，讓開發者們興奮不已。最近，知名播客主持人 Lex Fridman 與 Cursor 團隊的四位創始成員進行了深入對話，聊聊他們的創新曆程和未來規劃。Cursor 的故事可以追溯到2020年，那時 OpenAI 發佈了一篇關於縮放損失的論文。這篇論文讓人們對機器學習的未來充滿期待。它提出，如果能獲得更多計算資源和數據，模型的表現會越來越好。這一想法讓

5.7萬億個優質tokens的誕生：大語言模型訓練的 “神祕寶藏” TxT360

相關推薦

谷歌全新 AI 功能上線：視頻分析、語音提問，讓搜索更智能！

​OpenAI Sora負責人加盟 Google DeepMind，負責“世界模擬器”項目

Anthropic 通過“上下文檢索”新方法 提高 RAG 準確性

Inflection AI拋棄Nvidia，選擇了英特爾Gaudi 3加速器！

Cursor 團隊揭祕：我們如何讓 AI 編程變得更簡單、更智能！

OpenAI Sora負責人加盟 Google DeepMind，負責“世界模擬器”項目

Anthropic 通過“上下文檢索”新方法提高 RAG 準確性