智谱AIは、最新の汎用ビジョンモデル「GLM-4.1V-Thinking」を正式にオープンソースとしてリリースしました。このモデルはGLM-4Vアーキテクチャに基づき、思考プロセスの連鎖推論メカニズムを追加することで、複雑な認知タスクの能力が大幅に向上しています。このモデルは画像、動画、ドキュメントなどのマルチモーダル入力をサポートし、長時間の動画理解、画像質問応答、学問的な問題解決、テキスト認識、ドキュメント解釈、グランドリング(対応付け)、GUIエージェントおよびコード生成など、多様なシナリオに対応しており、さまざまな業界のニーズを満たします。

GLM-4.1V-9B-Thinkingは28の権威ある評価テストで優れたパフォーマンスを発揮し、そのうち23項目で10B規模のモデルの最高成績を達成し、18項目では72Bパラメータを持つQwen-2.5-VLと同等またはそれを上回りました。MMStar、MMMU-Pro、ChartQAPro、OSWorldなどのベンチマークテストを含みます。90億パラメータの規模に加え、効率的な推論能力により、単一の3090グラフィックカード上で動作可能であり、無料商用ライセンスが提供されるため、開発者の門檻を大幅に低下させています。

智譜AIは、GLM-4.1V-Thinkingが強化学習とコースサンプリング技術によって、跨分野の推論能力を最適化し、複雑な問題に対する深い考察と解決能力を示していると述べました。このモデルはHuggingFaceに公開され、世界中の開発者が無料で体験できます。業界関係者は、この取り組みが教育、研究、商業などの分野におけるマルチモーダルAIの広範な応用を促進するものであり、智譜AIが汎用人工知能の道のりにおいてまた一つの重要なマイルストーンであることを示していると考えています。