このほど、アリ国際は新世代のマルチモーダル大規模モデルであるOvis2.5を正式に発表し、公開しました。このモデルは、ネイティブ解像度の視覚認識、深層推論、そしてコストパフォーマンスの高いシナリオ設計に注力しており、人工知能の応用能力をさらに向上させることを目的としています。Ovis2.5は、主要なマルチモーダル評価セットであるOpenCompassにおいて、前バージョンのOvis2と比較して大幅にスコアが向上し、類似のオープンソースモデルの中でSOTA(最高度技術)の水準を維持しています。

今回のOvis2.5は、異なるパラメータ規模の2つのバージョンを含んでいます。まず、Ovis2.5-9Bは、OpenCompassの評価で78.3という高いスコアを獲得し、多くのパラメータ数が大きいモデルを上回り、40B以下のパラメータ規模のオープンソースモデルの中で第1位を記録しました。次に、Ovis2.5-2Bの総合スコアは73.9であり、Ovisシリーズが「小さな体格だが大きな力」という理念を引き継ぎ、特にエッジ側やリソース制限のあるアプリケーションに適しています。
Ovis2.5全体のアーキテクチャに関して、公式は体系的な革新を施したと説明しています。主にモデルアーキテクチャ、トレーニング戦略、およびデータエンジニアリングの3つの面に現れています。モデルアーキテクチャにおいて、Ovis2.5はシリーズの革新的な構造化埋め込み対齊設計を引き継いでおり、3つの主要なコンポーネントから構成されています: 動的解像度の視覚特徴抽出、視覚語彙モジュールによる視覚とテキストの構造的対齊、Qwen3をベースにした強力な言語処理能力。
トレーニング戦略において、Ovis2.5はより細かい5段階のトレーニング計画を採用しており、基本的な視覚プリトレーニング、マルチモーダルプリトレーニング、大規模な指示微調整などの複数のステップを含みます。また、DPOやGRPOなどのアルゴリズムを用いて、好みの対齊や推論能力を強化し、モデルの性能を効果的に向上させました。さらに、モデルのトレーニング速度はエンドツーエンドで3〜4倍の高速化を達成しました。
データエンジニアリングにおいて、Ovis2.5のデータ量はOvis2に比べて50%増加し、視覚推論、グラフ、OCR(光学文字認識)およびGroundingなどの重要な分野に焦点を当てています。特に、Qwen3と深く適合した「思考」データを大量に合成し、モデルの反省と推論の潜在力を大幅に引き出しました。
Ovis2.5のコードとモデルはGitHubやHugging Faceなどのプラットフォームで公開されており、ユーザーはこれらのプラットフォームを通じて関連リソースを取得し、その応用可能性をさらに探求できます。
コード: https://github.com/AIDC-AI/Ovis
モデル: https://huggingface.co/AIDC-AI/
ポイント:
🌟 Ovis2.5はOpenCompassの評価で78.3の総合スコアを達成し、SOTAレベルを維持し続けています。
🔧 2つのバージョンを含み、Ovis2.5-9Bは大規模なアプリケーションに適し、Ovis2.5-2Bはリソース制限のある環境に特化しています。
📊 创新的なアーキテクチャとトレーニング戦略を採用し、データ量は50%増加し、視覚推論などの重要な分野に焦点を当てています。
