智譜は正式にオープンソースのGLM-4.6Vマルチモーダル大規模モデルシリーズをリリースしました。基本版GLM-4.6V(総パラメータ数106B、アクティブ12B)と軽量版GLM-4.6V-Flash(9B)が含まれます。新しいモデルでは、コンテキストウィンドウを128kトークンまで拡張し、視覚理解精度は同パラメータ数のSOTAを達成しています。また、Function Call機能を視覚モデルにネイティブに組み込み、視覚認識→実行可能な行動という完全なフローを構築しました。API価格はGLM-4.5Vよりも50%低下しており、入力は1元/百万トークン、出力は3元/百万トークンです。GLM-4.6V-Flashは完全無料で、GLM Coding Planおよび専用MCPツールが統合されており、開発者はゼロコストで商用化できます。
技術的特徴:128kの複数画像・長文 + ネイティブな視覚Function Call
128kのマルチモーダルコンテキスト:一度に30枚の高解像度画像と8万文字のテキストを入力でき、Video-MMEやMMBench-Videoなどの長動画理解ベンチマークでSOTAを達成しています。
ネイティブなFunction Call:視覚信号が直接実行可能なAPIにマッピングされ、追加のProjectorが不要で、遅延が37%低減し、成功率が18%向上します。
統一エンコード:画像、動画、テキストが同じTransformerを使用し、推論時に動的にルーティングすることで、VRAM使用量が30%減少します。
価格とライセンス:軽量版は無料、基本版は半額
GLM-4.6V-Flash(9B):0円で呼び出し可能で、重みと商用ライセンスが公開されており、エッジデバイスやSaaSとの統合に適しています。
GLM-4.6V(106B-A12B):入力は1元/百万トークン、出力は3元/百万トークンで、GPT-4Vの約1/4です。
価格の50%削減:GLM-4.5Vと比較して全体的に50%引き下げており、100万トークンの試用枠を付与します。
開発者ツール:MCP + Coding Planでワンクリック接続
専用MCP(Model-Context-Protocol)ツール:10行のコードでGLM-4.6VをVS CodeやCursorに簡単に接続でき、「UIを囲む→自動的にフロントエンドコードを生成」が可能です。
GLM Coding Plan:50以上のシナリオテンプレート(ウェブサイト、マイクロアプリ、スクリプト)を提供し、視覚的要件→実行可能なコード→自動デプロイが可能です。
オンラインPlayground:画像のドラッグ&ドロップ、リアルタイムでのFunction Callのデバッグが可能で、Python/Node.jsの呼び出しスニペットを1クリックでエクスポートできます。
ベンチマーク結果:同パラメータ数でSOTA、長動画理解でリード
| ベンチマーク | GLM-4.6V | GPT-4V | Gemini1.5Pro |
| --------------------- | -------- | ------ | -------------- |
| Video-MME |74.8 |69.1 |72.9 |
| MMBench-Video |82.1 |78.4 |80.6 |
| LongVideoBench (128k) |65.3 |58.2 |62.1 |
商業シーンと事例
映画予告編:監督がキャラクター画像と分鏡をアップロードすると、30秒の予告編が自動的に作成され、主な一貫性は96%以上です。
産業検査:機器のパネルを撮影→異常領域を自動認識→メンテナンスAPIを呼び出して作業指示を作成します。
教育教材:教師が教科書の図を囲むと、3Dアニメーションと音声説明が生成され、PPTに1クリックでエクスポートできます。
オープンな進路
本日から:重み、推論コード、MCPツールがGitHubとHugging Faceでオープンソースになりました(GLM-4.6Vで検索)。
2025Q1:1Mのコンテキストバージョンとエッジ端末向けINT4量子化モデルを発表予定で、ノートパソコンのCPUでも動作します。
2025Q2:「ビジュアルエージェントストア」をリリースし、開発者はカスタムFunction Callを掲載し、呼び出しごとに収益分成が可能になります。
業界の観察
