Liquid AI は最新の LF2-VL シリーズの視覚言語基礎モデル(Vision-Language Foundation Models)をリリースしました。これにより、マルチモーダル AI は「簡潔で高速で、デバイスに直接配置できる」方向へ加速して進化しています。
このシリーズには、LFM2-VL-450M と LFM2-VL-1.6B の2つのモデルが含まれています。前者はリソース制限されたハードウェア環境向けに設計されており、パラメータ数は5億未満です。後者はパラメータ数が多くても依然として軽量であり、単一の GPU またはデバイスで直接配置可能です。

LFM2-VL は、Liquid AI が以前にリリースした LFM2 アーキテクチャから拡張され、視覚と言語処理能力を統合しており、複数の解像度の画像入力をサポートし、テキストと画像の処理が可能です。非常に柔軟性と互換性があります(liquid.ai, Venturebeat)。GPU 推論速度では最大「2倍」の向上を実現し、一般的な性能評価でも優れた結果を示しています (Venturebeat, liquid.ai)。
画像処理に関しては、LFM2-VL は元の解像度(最大512×512)で画像を入力でき、強制的な縮小による歪みを回避できます。より大きな画像の場合、モデルはオーバーラップしないスライス方式で処理し、サムネイルを用いて全体的な文脈情報を取得します (Venturebeat, liquid.ai)。このモデルのアーキテクチャは、言語モデルのコア部分、SigLIP2NaFlex 視覚エンコーダー、およびマルチモーダルプロジェクターから構成されています。プロジェクターはピクセルアンシャッフル技術を備えた2層の MLP を使用して、画像トークンの数を減らし、処理速度を向上させます (Venturebeat, liquid.ai)。
トレーニングデータに関しては、LFM2-VL には約1,000億のマルチモーダルトレーニングトークンが含まれており、オープンソースデータセットや企業独自の合成画像データから構成されています(Venturebeat, liquid.ai)。評価結果によると、LFM2-VL-1.6B は RealWorldQA(65.23)、InfoVQA(58.68)、OCRBench(742)などのタスクで優れた成績を収め、推論効率において同様のモデルよりも優れています (Venturebeat, liquid.ai)。
現在、これらのモデルは Hugging Face に公開されており、Colab 上での微調整のサンプルコードも添付されています。Hugging Face Transformers と TRL ライブラリと互換性があります。また、Apache2.0の原則に基づいた新しい「LFM1.0ライセンス協定」を採用しており、学術用途には利用可能で、年間収入が1,000万ドル以下の企業は商業用途にも利用可能です。年間収入がそれ以上の企業は、Liquid AI に連絡してライセンスを取得する必要があります(Venturebeat, liquid.ai)。
Liquid AI の LFM2-VL モデルは、視覚とテキストの融合 AI をデバイスに配置するための新しい道を提供し、特にスマートフォン、ノートブック、ウェアラブルデバイスなどのシナリオに適しています。これにより、クラウドへの依存度を低下させ、プライバシーと応答速度を向上させることが可能になります。
プロジェクト: https://huggingface.co/LiquidAI/LFM2-VL-1.6B
重要なポイント:
🆕 2種類のモデル設計: LFM2-VL-450M(リソースが限られた環境に最適)と LFM2-VL-1.6B(より強力だが依然として軽量)、デバイスに直接配置可能なモデルです。
スピードと効率の両立: GPU 推論速度が最大2倍向上し、優れたマルチモーダルタスクの性能を備えています。
多プラットフォーム対応環境: Hugging Face に公開されており、ライセンスオプションを提供し、主流の開発ツールと互換性があり、学術および中小企業の商業用途に適しています。
