8月25日、阿里ババクラウドは、大規模視覚言語モデル「Qwen-VL」を発表しました。これは、中国語と英語など複数の言語に対応し、テキストと画像を統合的に理解できるモデルです。Qwen-VLは、阿里ババクラウドが以前オープンソース化した汎用言語モデル「Qwen-7B」をベースとしており、他の視覚言語モデルと比較して、視覚的な位置特定や画像内の中国語の理解などの機能が追加されています。Qwen-VLはGitHubで3400以上のスターを獲得し、ダウンロード数は40万回を超えています。視覚言語モデルは、汎用AIの重要な進化方向と見なされています。業界では、多様な入力に対応できるモデルは、世界に対する理解能力を高め、利用シーンを拡大すると考えられています。阿里ババクラウドは、Qwen-VLをオープンソース化することで、汎用AI技術の進歩をさらに促進します。
関連推奨
Google、新たなビジョン言語モデル PaliGemma 2 Mix を発表、開発者を支援する多機能モデル
先日、Googleは、PaliGemma2Mix と名付けられた、新たなビジョン言語モデル(VLM)を発表しました。このモデルは画像処理と自然言語処理の能力を融合し、視覚情報とテキスト入力の両方を理解し、必要に応じて対応する出力を生成することができます。これは、人工知能技術におけるマルチタスク処理の更なる進歩を示しています。PaliGemma2Mix は非常に強力な機能を備えており、画像記述、光学文字認識(OCR)などを統合しています。
Google DeepMind、1000億規模のビジョン言語データセットWebLI-100Bを発表
Google DeepMindチームは、1000億個の画像テキストペアを含む巨大データセットWebLI-100Bを発表しました。これは、人工知能のビジョン言語モデルの文化的にも言語的にも多様な能力を向上させることを目的としています。このデータセットにより、研究者たちは、異なる文化や言語環境でのビジョン言語モデルのパフォーマンスを改善し、サブグループ間の性能差を縮小することで、AIの包括性を高めることを期待しています。ビジョン言語モデル(VLMs)は、学習のために大規模なデータセットに依存しており、…
IBM、複雑なドキュメントを簡単に解析するビジョン言語モデルGranite-Vision-3.1-2Bを発表
人工知能技術の進歩に伴い、視覚データとテキストデータの融合は複雑な課題となっています。従来のモデルでは、表、グラフ、インフォグラフィック、図表などの構造化された視覚ドキュメントを正確に解析することが困難であり、自動的なコンテンツ抽出と理解能力に影響を与え、ひいてはデータ分析、情報検索、意思決定などのアプリケーションに影響を与えてきました。このニーズに応えるため、IBMは最近、ドキュメント理解のために設計された小型のビジョン言語モデルであるGranite-Vision-3.1-2Bを発表しました。
阿里云通義オープンソースQwen2.5-VL、視覚AIがClaude 3.5を凌駕
阿里云通義千問は、新しいビジョンモデルQwen2.5-VLをオープンソース化し、3B、7B、72Bの3つのサイズバリアントを発表しました。その中でも、フラッグシップモデルであるQwen2.5-VL-72Bは、13の権威ある評価で視覚理解において1位を獲得し、GPT-4oとClaude 3.5を上回りました。阿里云公式の説明によると、新しいQwen2.5-VLは画像の内容をより正確に解析でき、画期的に1時間以上のビデオ理解に対応できるようになりました。このモデルはビデオ内で特定のイベントを検索し、ビデオの不…
驚異の300倍サイズ縮小!Hugging FaceがSmolVLMモデルを発表:コンパクトでスマート、スマホでもAI実行可能
Hugging Faceが注目すべきAIモデル、SmolVLMを発表しました。このビジョン言語モデルは、スマートフォンなどの小型デバイスでも動作するほどコンパクトでありながら、大規模データセンターが必要な従来のモデルを上回る性能を実現しています。SmolVLM-256Mモデルは、GPUメモリ使用量が1GB未満でありながら、300倍もの規模を持つ前身モデルIdefics80Bモデルを凌駕する性能を発揮します。これは、実用的なAI導入における大きな進歩を示しています。
