先日、アレン人工知能研究所(Ai2)は、新しいオープンソースのマルチモーダルAIモデルファミリーであるMolmoを発表しました。その性能は非常に高く、複数の第三者ベンチマークテストにおいて、OpenAIのGPT-4、AnthropicのClaude 3.5 Sonnet、GoogleのGemini 1.5を上回る結果を示しました。

image.png

Molmoはユーザーがアップロードした画像の分析に対応するだけでなく、「競合他社よりも1000倍少ないデータ」を使用してトレーニングされています。これは、独自のトレーニング手法によるものです。

image.png

今回の発表は、Ai2のオープンリサーチへのコミットメントを示すもので、高性能なモデルと、オープンな重みとデータを提供し、より広範なコミュニティや企業が利用できるようにすることを目的としています。Molmoファミリーには、Molmo-72B、Molmo-7B-D、Molmo-7B-O、MolmoE-1Bの4つの主要なモデルが含まれており、その中でもMolmo-72Bは72億個のパラメータを持つフラッグシップモデルとして、特に優れた性能を示しています。

様々な評価によると、Molmo-72Bは11個の重要なベンチマークテストで最高点を獲得し、ユーザーの好みにおいてはGPT-4に次ぐ結果となりました。Ai2はまた、OLMoEモデルも発表しており、「小型モデルの組み合わせ」を採用することで、コスト効率の向上を目指しています。

Molmoのアーキテクチャは、効率性と優れた性能を実現するために綿密に設計されています。すべてのモデルは、OpenAIのViT-L/14336px CLIPモデルをビジュアルエンコーダーとして使用し、多尺度の画像を視覚トークンに変換します。言語モデル部分は、異なる容量とオープン性を備えたデコーダーTransformerです。

トレーニングに関しては、Molmoは2段階のトレーニングを実施しました。まずマルチモーダル事前学習を行い、次に教師あり微調整を行います。多くの最新のモデルとは異なり、Molmoは人間のフィードバックによる強化学習に依存せず、綿密に調整されたトレーニングプロセスを通じてモデルパラメータを更新します。

Molmoは、複数のベンチマークテストで優れた性能を示しており、特に文書読解や視覚推論などの複雑なタスクにおいてその強力な能力を発揮しています。Ai2は既にHugging Face上でこれらのモデルとデータセットを公開しており、今後数ヶ月間でさらに多くのモデルと拡張技術レポートを発表し、研究者へのリソース提供を目指しています。

Molmoの機能について詳しく知りたい場合は、Molmoの公式ウェブサイトで公開デモを試すことができます(https://molmo.allenai.org/)。

要点:

🌟 Ai2のMolmo、オープンソースのマルチモーダルAIモデルが業界トップ製品を凌駕。

📊 Molmo-72Bは複数のベンチマークテストで卓越した性能を示し、GPT-4に次ぐ結果。

🔍 高いオープン性、モデルとデータセットは研究者らが自由に使用可能。