智譜は正式にオープンソースのGLM-4.6Vマルチモーダル大規模モデルシリーズをリリースしました。基本版GLM-4.6V(総パラメータ数106B、アクティブ12B)と軽量版GLM-4.6V-Flash(9B)が含まれます。新しいモデルでは、コンテキストウィンドウを128kトークンまで拡張し、視覚理解精度は同パラメータ数のSOTAを達成しています。また、Function Call機能を視覚モデルにネイティブに組み込み、視覚認識→実行可能な行動という完全なフローを構築しました。API価格はGLM-4.5Vよりも50%低下しており、入力は1元/百万トークン、出力は3元/百万トークンです。GLM-4.6V-Flashは完全無料で、GLM Coding Planおよび専用MCPツールが統合されており、開発者はゼロコストで商用化できます。

技術的特徴:128kの複数画像・長文 + ネイティブな視覚Function Call

128kのマルチモーダルコンテキスト:一度に30枚の高解像度画像と8万文字のテキストを入力でき、Video-MMEやMMBench-Videoなどの長動画理解ベンチマークでSOTAを達成しています。

ネイティブなFunction Call:視覚信号が直接実行可能なAPIにマッピングされ、追加のProjectorが不要で、遅延が37%低減し、成功率が18%向上します。

統一エンコード:画像、動画、テキストが同じTransformerを使用し、推論時に動的にルーティングすることで、VRAM使用量が30%減少します。

価格とライセンス:軽量版は無料、基本版は半額

GLM-4.6V-Flash(9B):0円で呼び出し可能で、重みと商用ライセンスが公開されており、エッジデバイスやSaaSとの統合に適しています。

GLM-4.6V(106B-A12B):入力は1元/百万トークン、出力は3元/百万トークンで、GPT-4Vの約1/4です。

価格の50%削減:GLM-4.5Vと比較して全体的に50%引き下げており、100万トークンの試用枠を付与します。

開発者ツール:MCP + Coding Planでワンクリック接続

専用MCP(Model-Context-Protocol)ツール:10行のコードでGLM-4.6VをVS CodeやCursorに簡単に接続でき、「UIを囲む→自動的にフロントエンドコードを生成」が可能です。

GLM Coding Plan:50以上のシナリオテンプレート(ウェブサイト、マイクロアプリ、スクリプト)を提供し、視覚的要件→実行可能なコード→自動デプロイが可能です。

オンラインPlayground:画像のドラッグ&ドロップ、リアルタイムでのFunction Callのデバッグが可能で、Python/Node.jsの呼び出しスニペットを1クリックでエクスポートできます。

ベンチマーク結果:同パラメータ数でSOTA、長動画理解でリード

| ベンチマーク                  | GLM-4.6V | GPT-4V | Gemini1.5Pro |

| --------------------- | -------- | ------ | -------------- |

| Video-MME             |74.8     |69.1   |72.9           |

| MMBench-Video         |82.1     |78.4   |80.6           |

| LongVideoBench (128k) |65.3     |58.2   |62.1           |

商業シーンと事例

映画予告編:監督がキャラクター画像と分鏡をアップロードすると、30秒の予告編が自動的に作成され、主な一貫性は96%以上です。

産業検査:機器のパネルを撮影→異常領域を自動認識→メンテナンスAPIを呼び出して作業指示を作成します。

教育教材:教師が教科書の図を囲むと、3Dアニメーションと音声説明が生成され、PPTに1クリックでエクスポートできます。

オープンな進路

本日から:重み、推論コード、MCPツールがGitHubとHugging Faceでオープンソースになりました(GLM-4.6Vで検索)。

2025Q1:1Mのコンテキストバージョンとエッジ端末向けINT4量子化モデルを発表予定で、ノートパソコンのCPUでも動作します。

2025Q2:「ビジュアルエージェントストア」をリリースし、開発者はカスタムFunction Callを掲載し、呼び出しごとに収益分成が可能になります。

業界の観察