百度スマートクラウドのQianfanチームは、新たに視覚理解モデル「Qianfan-VL」を正式にリリースし、全面的にオープンソース化しました。このシリーズモデルには3B、8B、70Bの3つのサイズがあり、企業向けのマルチモーダルアプリケーションのニーズに対応するため開発されました。深い最適化により、非常に強力な視覚理解能力を備えています。

Qianfan-VLモデルは優れた基本的な能力だけでなく、業界で頻繁に求められるニーズに対して特化した向上が施されており、例えば光学文字認識(OCR)や教育シーンでの応用など、実際の使用においてより優れた性能を発揮します。このモデルはオープンソースモデルをもとに開発され、百度独自の昆仑芯P800上で全プロセスの計算が行われました。強力な計算力のサポートにより、モデルは複雑なデータとアルゴリズムを効率的に処理することが可能です。

image.png

この新しいモデルには3つの顕著な特徴があります。まず、多様なサイズの選択肢により、さまざまな規模の企業や開発者にとって適切な解決策を見つけることが可能になります。3B、8B、70Bの3つの仕様は、あらゆるアプリケーションのニーズに対応しています。次に、8Bおよび70Bモデルは思考・推論能力を持ち、特別なトークンによって活性化され、複雑なグラフの理解、視覚的推論、数学問題の解法などのタスクを処理できます。最後に、OCRおよびドキュメント理解において優れた性能を発揮し、手書き文字や複雑なレイアウトの正確な識別だけでなく、情報の構造化抽出にも対応しています。

ベンチマークテストでは、Qianfan-VLシリーズモデルは汎用性の高い能力と特定タスクにおける優れた性能を示しました。視覚的理解や専門分野の質問応答において、このモデルはすべてのテストで印象的な正確性とパフォーマンスを示しました。特にOCRとドキュメント理解の領域では、すべての場面での認識能力と複雑なドキュメント分析能力により、企業向けの高精度なソリューションを提供します。

また、Qianfan-VLの数学問題の解法能力も注目に値します。8Bおよび70Bモデルは複雑な推論タスクを処理する際、視覚情報と外部知識を組み合わせて優れた性能を発揮します。実際のアプリケーションシーンでは、重要な情報を抽出し、データ分析を行うことができ、企業のスマートな意思決定を支援します。

Qianfan-VLの登場は、百度が視覚理解分野で大きな進展を遂げたことを示しています。今後、このモデルがさまざまな業界で実用化されることで、新たな波が巻き起こることを期待しています。