最近、エイレン・インテリジェンス研究所(Ai2)は新しいMolmo2オープンソースの動画言語モデルを公開しました。このシリーズの新モデルと関連するトレーニングデータは、非営利機関としてのAi2がオープンソース分野における強いコミットメントを示しており、特に企業がモデルの使用を制御したいという状況において、これは大きなメリットです。

image.png

Molmo2にはいくつかの異なるバージョンのモデルが含まれており、アリババのQwen3言語モデルに基づくMolmo2-4BとMolmo2-8B、そしてAi2Olmo言語モデルに基づいた完全にオープンソースのバージョンであるMolmo2-O-7Bがあります。モデルだけでなく、Ai2は9つの新しいデータセットも公開しました。これらのデータセットには、複数の画像と動画入力に対応した長形式の質保証データセットや、オープンな動画指標および追跡データセットが含まれています。

Molmo2の顕著な特徴の一つは、強化された機能です。Ai2によると、Molmo2-O-7Bは透明性のあるモデルであり、ユーザーがエンドツーエンドの研究とカスタマイズを行うことができます。つまり、ユーザーは視覚言語モデルとその言語学習モデル(LLM)への完全なアクセス権を持ち、特定のニーズに合わせてモデルをより柔軟に調整できるようになります。

Molmo2モデルは、画像または動画に関する質問に答えることができ、動画で識別されたパターンに基づいて推論を行うことができます。Ai2の知覚推論とインタラクション研究部長のRanjay Krishna氏は、これらのモデルは答えを提供するだけでなく、時間と空間の両方で特定のイベントが発生した瞬間を明確に指し示すことができると述べました。また、Molmo2は説明的な字幕を生成し、物体の数を追跡し、長大な動画シーケンスにおける珍しい出来事を検出する能力もあります。

ユーザーはHugging FaceとAi2PlaygroundでMolmo2を使用できます。後者はAi2が提供するプラットフォームであり、さまざまなツールとモデルを体験することができます。このリリースは、Ai2がオープンソースへの取り組みを示しています。アナリストのBradley Shimminは、モデルに関連するデータと重みの公開が企業にとって非常に重要であり、特にデータ主権が重視される背景においては特にそうだと指摘しています。

Molmoシリーズのモデルのパラメータ数は比較的少なく(40億または80億のパラメータ)、これは多くの企業にとってより経済的です。Shimminは、企業がモデルのサイズが唯一の重要な要素ではないことを次第に認識し始めていると強調しています。トレーニングデータの透明性と責任ある運用も同様に重要です。

プロジェクト:https://allenai.org/blog/molmo2

ポイント:

1. 🚀 Ai2がMolmo2シリーズのオープンソース動画言語モデルを公開し、企業がモデルの使用をコントロールできるようにしました。

2. 🎥 新モデルは複数の画像と動画入力をサポートし、イベントの推論や説明的な字幕の生成が可能です。

3. 📊 Ai2はオープンソースへのコミットメントを堅持し、データの透明性とモデルのカスタマイズの重要性を強調しています。