最近,日本東京的初創公司 Rhymes AI 推出了他們的首款人工智能模型 ——Aria。該公司自稱,Aria 是全球首個開源的多模態混合專家(MoE)模型。這個模型不僅具有處理多種輸入模態的能力,還聲稱在能力上與一些知名的商業模型不相上下,甚至更勝一籌。

Aria 的設計理念是希望能夠在文本、代碼、圖像和視頻等多種輸入形式上,提供卓越的理解和處理能力。與傳統的 Transformer 模型不同,MoE 模型通過多個專業的專家來替代其前饋層。當處理每個輸入令牌時,一個路由模塊會選擇一部分專家進行激活,從而提高計算效率,減少每個令牌的激活參數數量。

image.png

Aria 的解碼器每個文本令牌可以激活35億個參數,整個模型擁有249億個參數。爲了處理視覺輸入,Aria 還設計了一款輕量級的視覺編碼器,擁有4.38億個參數,可以將各種長度、大小和縱橫比的視覺輸入轉換爲視覺令牌。此外,Aria 的多模態上下文窗口達到64,000個令牌,意味着它能處理更長的輸入數據。

image.png

在訓練方面,Rhymes AI 共分爲四個階段,先用文本數據進行預訓練,再引入多模態數據,接着是長序列的訓練,最後進行微調。

在此過程中,Aria 總共使用了6.4萬億個文本令牌和4000億個多模態令牌進行預訓練,數據來自 Common Crawl 和 LAION 等知名數據集,並進行了部分合成增強。

根據相關基準測試,Aria 在多個多模態、語言和編程任務中表現優於 Pixtral-12B 和 Llama-3.2-11B 等模型,並且因激活參數較少,推理成本也較低。

此外,Aria 在處理帶有字幕的視頻或多頁文檔時表現良好,其理解長視頻和文檔的能力超過了 GPT-4o mini 和 Gemini1.5Flash 等其他開源模型。

image.png

爲便於使用,Rhymes AI 將 Aria 的源代碼以 Apache2.0許可證形式發佈在 GitHub 上,支持學術和商業使用。同時,他們還提供了一個訓練框架,可以在單個 GPU 上對 Aria 進行多種數據源和格式的微調。值得一提的是,Rhymes AI 與 AMD 達成了合作,以優化模型性能,展示了一款名爲 BeaGo 的搜索應用,該應用能夠在 AMD 硬件上運行,爲用戶提供更全面的文本和圖像 AI 搜索結果。

劃重點:

🌟 Aria 是全球首個開源的多模態混合專家 AI 模型。  

💡 Aria 在處理文本、圖像和視頻等多種輸入時,表現出色,超越了許多同行模型。  

🤝 Rhymes AI 與 AMD 合作,優化模型性能,並推出支持多種功能的 BeaGo 搜索應用。