最近,艾倫人工智能研究所(AI2)發佈了一款全新的開源模型 OLMoE,旨在滿足對大型語言模型(LLM)的需求。這個模型不僅性能優異,而且成本相對低廉。

image.png

OLMoE 採用了一種稀疏混合專家(MoE)架構,擁有70億個參數,但每個輸入標記僅使用10億個參數。它有兩個版本,分別是更通用的 OLMoE-1B-7B 和經過指令調優的 OLMoE-1B-7B-Instruct。

image.png

與其他大多數閉源的混合專家模型不同,AI2特別強調 OLMoE 是完全開源的。他們在論文中提到,“大多數 MoE 模型是閉源的:儘管有些公開了模型權重,但對其訓練數據、代碼或配方的信息極爲有限。” 這使得很多學術研究者無法接觸到這些模型。

AI2的研究科學家內森・蘭伯特在社交媒體上表示,OLMoE 將有助於政策制定,這可以爲學術界的 H100集羣的上線提供一個起點。他還提到,OLMoE 模型的發佈是 AI2致力於開發開源模型、使其性能與封閉模型相媲美的目標的一部分。

在模型的構建方面,AI2決定使用64個小型專家進行精細路由,並在運行時只激活其中的八個。實驗表明,OLMoE 在性能上與其他模型相當,但在推理成本和內存存儲上卻顯著降低。OLMoE 還建立在 AI2之前的開源模型 OLMO1.7-7B 的基礎上,支持4096個標記的上下文窗口。OLMoE 的訓練數據來自多個來源,包括 Common Crawl、Dolma CC 和維基百科等。

在基準測試中,OLMoE-1B-7B 在與相似參數的模型比較時,表現優於許多現有模型,甚至超越了更大規模的模型,如 Llama2-13B-Chat 和 DeepSeekMoE-16B。

image.png

AI2的目標之一是爲研究人員提供更多完全開源的 AI 模型,包括混合專家架構。儘管許多開發者都在使用 MoE 架構,但 AI2認爲大多數其他 AI 模型在開放性上還遠遠不夠。

huggingface: https://huggingface.co/collections/allenai/olmoe-66cf678c047657a30c8cd3da

論文入口: https://arxiv.org/abs/2409.02060

劃重點:

- 🌟 AI2發佈的新開源模型 OLMoE 在性能與成本方面都具備競爭力。

- 📊 OLMoE 採用了稀疏混合專家架構,能夠有效降低推理成本和內存需求。

- 🔍 AI2致力於提供全面開源的 AI 模型,促進學術研究和開發。