近日,Cohere 宣佈推出兩款新的開源 AI 模型,旨在通過其 Aya 項目縮小基礎模型的語言差距。這兩款新模型名爲 Aya Expanse8B 和35B,現已在 Hugging Face 上提供使用。這兩個模型的推出,讓23種語言的 AI 性能得到了顯著提升。
Cohere 在其博客中表示,8B 參數模型讓全球研究人員能更輕鬆地獲得突破,而32B 參數模型則提供了業界領先的多語言能力。
Aya 項目的目標是擴展更多非英語語言的基礎模型訪問。在此之前,Cohere 的研究部門去年啓動了 Aya 計劃,並在2月份發佈了 Aya101大語言模型(LLM),這款模型涵蓋了101種語言。此外,Cohere 還推出了 Aya 數據集,以幫助在其他語言上進行模型訓練。
Aya Expanse 模型在構建過程中沿用了 Aya101的許多核心方法。Cohere 表示,Aya Expanse 的改進是基於多年來在機器學習突破領域重新思考覈心構建塊的結果。他們的研究方向主要集中在縮小語言差距,取得了一些關鍵性突破,如數據套利、針對一般性能和安全性的偏好訓練以及模型合併等。
在多項基準測試中,Cohere 表示,Aya Expanse 的兩個模型表現超越了 Google、Mistral 和 Meta 等公司同類規模的 AI 模型。
其中,Aya Expanse32B 在多語言基準測試中的表現超越了 Gemma227B、Mistral8x22B,甚至是更大的 Llama3.170B。而小型的8B 模型同樣超越了 Gemma29B、Llama3.18B 和 Ministral8B,勝率從60.4% 到70.6% 不等。
爲了避免生成難以理解的內容,Cohere 採用了一種名爲數據套利的數據採樣方法。這種方法能夠更好地訓練模型,尤其是針對低資源語言時更爲有效。此外,Cohere 還專注於引導模型朝向 “全球偏好”,並考慮不同文化和語言的視角,進而提高模型的性能與安全性。
Cohere 的 Aya 計劃力求確保 LLM 在非英語語言的研究上能夠有更好的表現。雖然許多 LLM 最終會推出其他語言版本,但在訓練模型時常常面臨數據不足的問題,尤其是對於低資源語言。因此,Cohere 的努力在幫助構建多語言 AI 模型方面顯得尤爲重要。
官方博客:https://cohere.com/blog/aya-expanse-connecting-our-world
劃重點:
🌍 **Cohere 推出兩款新 AI 模型 **,致力於縮小基礎模型的語言差距,支持23種語言的性能提升。
💡 **Aya Expanse 模型表現優異 **,在多語言基準測試中超越了許多同類競爭對手。
🔍 ** 數據套利方法 ** 幫助模型避免生成低質量內容,關注全球文化與語言視角,提高了多語言 AI 的訓練效果。