アリ国際デジタルトレードグループ(AIDC)のAIチーム(AIDC-AI)は、最近新しく多モーダル大規模言語モデル「Ovis2.5」をリリースしました。このモデルは9Bおよび2Bのパラメータサイズのバージョンを提供しています。このモデルは経済的な視覚推論ソリューションとして位置づけられ、その規模の中で優れた性能を発揮し、多モーダルAIアプリケーションに新たな基準を示しています。

QQ20250818-105026.png

Ovis2.5の主要な特徴

1. **ネイティブ解像度認識**: Ovis2.5はNaViTビジュアルエンコーダーを使用しており、画像の細かい詳細や全体構造を損なうことなく保持し、高品質なビジュアル処理能力を確保します。

2. **深い推論能力**: モデルはオプションの「思考モード」をサポートしており、一部はアリQwen3の技術特性を再利用しています。線形的思考チェーン(CoT)推論に加え、Ovis2.5は自己チェックと修正を行うことができ、設定可能な思考予算をサポートし、問題解決の正確性を向上させます。

3. **チャートとドキュメントOCRの先駆者**: 9Bおよび2Bの規模で、Ovis2.5は複雑なチャート分析、ドキュメント理解(表やフォームを含む)、光学文字認識(OCR)において業界で最も優れたレベルに達しています。実際のアプリケーションシナリオに強力なサポートを提供します。

4. **広範なタスクカバー**: このモデルは画像推論、動画理解、視覚的位置付けベンチマークで優れた性能を発揮し、強力な汎用的な多モーダル能力を示しています。

Ovis2.5のリリースは、AIDC-AIが多モーダルAI技術分野で継続的な革新を遂げていることを示しています。コンパクトなモデル規模内で高性能を実現することで、Ovis2.5は開発者と企業にとって効率的で導入しやすいソリューションを提供し、特に視覚とテキスト推論の組み合わせが必要なシナリオに適しています。モデルはGitHubやHugging Faceなどのプラットフォームでオープンソース化されており、グローバルなAIコミュニティの協力とイノベーションをさらに促進しています。

今回のリリースは、AIDC-AIがOvisシリーズモデルに基づいて達成した重要な進展であり、多モーダル大規模言語モデルの発展に新しい活力をもたらしています。