アリババ・テンション・クアンチームは最近、Qwen3-VLシリーズの2種類の軽量モデル—4Bおよび8Bパラメータバージョンを発表しました。Qwen3-VLシリーズは先月初めて登場し、テンション・クアンがこれまでにリリースした中で最も強力な視覚言語モデルのファミリーです。今回新たに追加された小規模パラメータバージョンは、導入のハードルを下げるためであり、同時に高い性能を維持しています。
新しくリリースされたモデルには、4Bと8Bの2つのパラメータサイズがあり、それぞれInstruct(指示に従う)およびThinking(思考プロセスの推論)の2つのバージョンが用意されており、開発者にとってより柔軟な選択肢を提供します。機能的な観点から見ると、これらの2つのモデルは、完全な能力を維持しながらも、大幅にボリュームを圧縮しています。
技術的な実現において、新しいモデルは3つの主要な目標を達成しました。まず、ハードウェアリソースの要件を大幅に低下させ、パラメータ数の削減によりVRAMの使用量が顕著に減少し、開発者がより多くの種類のエンドユーザー向けおよびエッジデバイス上で運用できるようにしました。第二に、モデルサイズが大幅に縮小されたにもかかわらず、Qwen3-VLシリーズのすべてのコア機能を引き継いでおり、マルチモーダル理解、長文処理、複雑な推論などの機能モジュールが含まれています。

パフォーマンスの観点から見ると、この2つの軽量モデルは複数の権威あるベンチマークテストで同等規模の競合製品を上回る実力を示しています。STEM分野の質問応答、視覚的質問応答(VQA)、光学文字認識(OCR)、ビデオ理解、Agentタスクなどのシナリオにおいて、4Bおよび8BモデルはGoogle Gemini2.5Flash LiteやOpenAI GPT-5Nanoなどの同規模の軽量モデルを上回っており、一部のタスクでは半年前にリリースされた72BパラメータのエントリーモデルQwen2.5-VL-72Bと同等の水準に達しています。
このリリースは、大規模モデル「小型化」トレンドの新たな進展を示しています。モデル圧縮と最適化技術を通じて、開発チームは能力の完全性を保ちながら、パラメータ数と計算コストを大幅に削減することに成功しました。これにより、視覚言語モデルがモバイル端末やIoTデバイスなどのリソース制限がある環境での応用を可能にしました。ローカルに配置する必要がある、または推論コストに敏感な企業ユーザーにとっては、この2つの新しいモデルがよりコスト効果の高いソリューションを提供します。
モデルのURL:https://huggingface.co/collections/Qwen/qwen3-vl-68d2a7c1b8a8afce4ebd2dbe
