最近,蘋果公司的人工智能團隊和華盛頓大學等多家機構合作,推出一款名叫 DCLM的開源語言模型。這款模型的參數達7億,並且在訓練過程中使用了多達2.5萬億個數據令牌,幫助我們更好地理解和生成語言。
那麼,什麼是語言模型呢?簡單來說,它是一種可以分析和生成語言的程序,能夠幫助我們完成各種任務,比如翻譯、文本生成和情感分析。爲了讓這些模型表現得更好,我們需要優質的數據集。然而,獲取和整理這些數據並不是一件容易的事,因爲我們需要過濾掉無關的或有害的內容,並去除重複的信息。
爲了應對這個挑戰,蘋果的研究團隊推出了 “數據集競爭”(DataComp for Language Models,簡稱 DCLM),這是一種用於語言模型的數據集優化工具。他們最近在 Hugging Face 平臺上開源了 DCIM 模型和數據集。開源版本包括DCLM-7B、DCLM-1B、dclm-7b-it、DCLM-7B-8k、dclm-baseline-1.0和dclm -baseline-1.0-parquet,,研究人員可以通過這個平臺進行大量實驗,找到最有效的數據整理策略。
https://huggingface.co/collections/mlfoundations/dclm-669938432ef5162d0d0bc14b
DCLM 的核心優勢在於它的結構化工作流程。研究人員可以根據需要選擇不同規模的模型,從4.12億到7億參數不等,同時還可以試驗不同的數據整理方法,比如去重和過濾。通過這些系統化的實驗,研究人員可以清晰地評估不同數據集的質量。這不僅爲未來的研究奠定了基礎,也幫助我們理解如何通過改善數據集來提升模型的表現。
例如,利用 DCLM 建立的基準數據集,研究團隊訓練了一個7億參數的語言模型,竟然在 MMLU 基準測試中取得了64% 的5-shot 準確率!這相較於之前的最高水平提高了6.6個百分點,並且使用的計算資源減少了40%。DCLM 基線模型的表現也與 Mistral-7B-v0.3和 Llama38B 相當,而後兩者需要的計算資源要多得多。
DCLM 的推出爲語言模型的研究提供了一個新的標杆,幫助科學家們系統化地提升模型的性能,同時降低了所需的計算資源。
劃重點:
1️⃣ 蘋果 AI 與多家機構合作推出 DCLM,創造了一個強大的開源語言模型。
2️⃣ DCLM 提供標準化的數據集優化工具,幫助研究人員進行有效實驗。
3️⃣ 新模型在重要測試中取得了顯著進展,同時降低了計算資源的需求。