上海AI研究所から、InternLM-XComposer-2.5(略称IXC-2.5)というマルチモーダル大規模言語モデルのオープンソース化という、大きなサプライズがありました。これは単なるモデルではなく、超高解像度画像理解、細粒度ビデオ理解、複数回にわたる画像対話など、多くの分野で卓越した能力を示しており、その性能は非常に印象的です。
さらに素晴らしいのは、IXC-2.5がウェブ制作と画像とテキストが混在する記事に特化して最適化されている点です。ウェブ上で豊富なコンテンツを提示する必要があるクリエイターにとって、これは大きな朗報と言えるでしょう。また、IXC-2.5のオープンソース化は、国内のマルチモーダルLLM分野における空白を埋めるものとなります。
IXC-2.5モデルの特徴:
長いコンテキストの処理:IXC-2.5はネイティブで24Kトークンの入力をサポートし、96Kまで拡張可能です。これは、非常に長いテキストと画像の入力を処理できることを意味し、ユーザーにより大きな創作の自由を提供します。
多様な視覚能力:超高解像度画像理解だけでなく、細粒度のビデオ理解や複数回にわたる複数画像対話もサポートします。これは従来のモデルでは考えられないことです。
生成能力:IXC-2.5はウェブページや高品質な画像とテキストが混在する記事を生成でき、テキストと画像の組み合わせを新たなレベルに引き上げます。
モデルアーキテクチャ:軽量のビジュアルエンコーダー、大規模言語モデル、そして一部のLoRAアライメント技術が含まれています。これらの技術の組み合わせにより、IXC-2.5のパフォーマンスは大幅に向上しています。
テスト結果:28個のベンチマークテストのうち、IXC-2.5は16個のテストで既存のオープンソースモデルを上回り、さらに16個のテストではGPT-4VやGemini Proに匹敵する、あるいはそれ以上の性能を示しました。これはその強力な能力を証明するものです。
複数回対話デモ
IXC-2.5の開発は、上海人工知能研究所、香港中文大学、商湯科技集団、そして清華大学の共同チームによるものです。このモデルは、ますます複雑化するテキストと画像の理解と創作タスクに対応するために、長いコンテキストの入出力のサポートを目的として設計されました。
画像処理において、IXC-2.5は統一的な動的画像分割戦略を採用しており、任意の解像度とアスペクト比の画像に対応できます。ビデオ処理においては、ビデオ内のフレームを短い辺に沿ってつなぎ合わせて高解像度画像を作成し、同時にフレームのインデックスを保持することで時間的な関係性を提供します。
画像とテキストが混在する記事デモ
事前学習段階では、IXC-2.5は位置エンコーディングの外挿によってコンテキストウィンドウを96Kに拡張しました。これは、人間と機械のインタラクションとコンテンツ作成において卓越した能力を示しています。教師あり微調整段階では、IXC-2.5は特定のデータセットを使用してトレーニングされ、非常に大きな画像とビデオを処理できるようにしています。
さらに、IXC-2.5はウェブページ生成における応用を拡大し、ビジュアルスクリーンショット、フリーフォーム指示、または履歴書文書に基づいてウェブページを自動的に構築できます。テキストと画像が混在する記事の作成においては、IXC-2.5は複数の技術を組み合わせることで、高品質で安定したテキストと画像が混在する記事を生成する拡張可能なプロセスを提案しています。
一連の包括的な実験を経て、IXC-2.5は複数のベンチマークテストで優れた結果を示し、ビデオ理解、構造化された高解像度画像理解、複数回にわたる複数画像対話、そして一般的なビジュアル質問応答などのタスクにおいて、強力な競争力を示しました。
IXC-2.5のオープンソース化は、技術的な飛躍であるだけでなく、人工知能分野全体への大きな貢献でもあります。これは、マルチモーダルLLMの無限の可能性を示すとともに、将来のAIアプリケーションのための新たな道を切り開きます。
プロジェクトアドレス:https://top.aibase.com/tool/internlm-xcomposer-2-5
論文アドレス:https://arxiv.org/pdf/2407.03320