最近、日本の東京のスタートアップ企業Rhymes AIが、彼らの最初のAIモデルであるAriaを発表しました。同社は、Ariaが世界初のオープンソースのマルチモーダル混合専門家(MoE)モデルだと主張しています。このモデルは、複数の入力モダリティを処理できるだけでなく、いくつかの有名な商用モデルに匹敵し、場合によっては凌駕する能力を持つとされています。
Ariaの設計理念は、テキスト、コード、画像、ビデオなど、さまざまな入力形式において、優れた理解力と処理能力を提供することです。従来のTransformerモデルとは異なり、MoEモデルは、そのフィードフォワード層を複数の専門的な専門家によって置き換えています。各入力トークンを処理する際、ルーティングモジュールは一部の専門家の活性化を選択することで、計算効率を向上させ、トークンごとに活性化されるパラメーター数を削減します。
Ariaのデコーダーは、テキストトークンごとに35億個のパラメーターを活性化でき、モデル全体では249億個のパラメーターを備えています。視覚入力の処理のために、Ariaは4.38億個のパラメーターを持つ軽量な視覚エンコーダーも設計されており、さまざまな長さ、サイズ、アスペクト比の視覚入力を視覚トークンに変換できます。さらに、Ariaのマルチモーダルコンテキストウィンドウは64,000トークンに達し、より長い入力データの処理が可能になります。
トレーニングに関しては、Rhymes AIは4つの段階に分けて行いました。まずテキストデータで事前トレーニングを行い、次にマルチモーダルデータを取り込み、続いて長シーケンスのトレーニングを行い、最後に微調整を行います。
この過程で、Ariaは合計6.4兆個のテキストトークンと4,000億個のマルチモーダルトークンを使用して事前トレーニングを行いました。データはCommon CrawlやLAIONなどの有名なデータセットから取得され、一部は合成による拡張が行われています。
関連するベンチマークテストによると、AriaはPixtral-12BやLlama-3.2-11Bなどのモデルよりも、複数のマルチモーダル、言語、プログラミングタスクにおいて優れたパフォーマンスを示しており、活性化パラメーターが少ないため、推論コストも低くなっています。
さらに、Ariaは字幕付きビデオや複数ページのドキュメントの処理において優れたパフォーマンスを発揮し、長尺のビデオやドキュメントの理解能力はGPT-4o miniやGemini1.5Flashなどの他のオープンソースモデルを上回っています。
使いやすさのために、Rhymes AIはAriaのソースコードをApache2.0ライセンスでGitHub上に公開し、学術利用と商業利用をサポートしています。同時に、単一のGPU上でAriaをさまざまなデータソースとフォーマットで微調整できるトレーニングフレームワークも提供しています。特筆すべきは、Rhymes AIがAMDと提携してモデルのパフォーマンスを最適化し、AMDハードウェア上で動作するBeaGoという検索アプリケーションを発表したことです。このアプリケーションは、ユーザーにより包括的なテキストと画像のAI検索結果を提供します。
要点:
🌟 Ariaは世界初のオープンソースのマルチモーダル混合専門家AIモデルです。
💡 Ariaはテキスト、画像、ビデオなどのさまざまな入力処理において優れた性能を示し、多くの同等のモデルを凌駕しています。
🤝 Rhymes AIはAMDと協力してモデルのパフォーマンスを最適化し、多機能なBeaGo検索アプリケーションを発表しました。