智譜がGLM-5V-Turboマルチモーダルコーディング大規模モデルを発表

4月2日、智譜は視覚プログラミングに特化したマルチモーダルベースモデル GLM-5V-Turbo を正式にリリースしました。このモデルはコードを書くだけでなく、「世界を理解する」能力も備えており、AIエージェントの感覚フローを単なる文字列から豊かなデザインとウェブインターフェースにまで広げることを目的としています。

主要な突破点：画像が読める、コードが書ける

オリジナルのマルチモーダルコーディングベースとして、GLM-5V-Turbo は視覚とプログラミング能力を深く統合しています：

多面的な認識: 画像、動画、デザイン図面、複雑なドキュメントレイアウトを原生的に理解し、枠やスクリーンショット、ウェブページの読み込みなどのさまざまな視覚ツールの呼び出しをサポートします。
広範な視野: プロジェクト全体や長文技術文書など、大規模なデータを扱うために、コンテキスト窓が200kまで拡張されています。
性能の優位性: マルチモーダルコーディングやGUIエージェント（グラフィカルユーザーインターフェースの知能体）などの主要なベンチマークテストで、より小さなサイズでも競合製品を上回るパフォーマンスを発揮しています。

代表的なシナリオ：“スケッチ”から“完成品”への秒単位の飛躍

GLM-5V-Turbo の導入により、開発者はこれまでにないワークフローを体験できます：

フロントエンドの再現: 設計図のスクリーンショットや操作録画を送るだけで、モデルはレイアウト、カラーコード、インタラクションロジックを理解し、直接実行可能なフロントエンドプロジェクトを生成します。
GUIの自律的探索: Claude Codeなどのフレームワークと組み合わせて、モデルは人間のようにウェブサイトを自主的に閲覧し、ジャンプ関係を整理して素材を収集し、全サイトレベルの視覚的な再現が可能です。
対話型編集: 会話を通じてモジュールの追加・削除、スタイルの変更、レイアウトの調整が可能で、可視化されたコードの反復作業が可能です。

「カニ」の強化：AutoClawが視覚的な進化を迎える

智譜が自社開発したスマートエージェント AutoClaw（カニ） にこのモデルを統合することで、もともとテキスト処理のみを行っていた「カニ」は本格的な視覚能力を獲得しました。例えば、現在ではK線チャートや証券レポート内の複雑なグラフを直接理解でき、60秒以内に複数のデータ収集を行い、図表を添えた専門的な分析レポートを出力することが可能です。

業界の観察：プログラミングは「盲人が象をさわる」ようなものではなくなった

GLM-5V-Turbo のリリースにより、智譜はAIの理解力を単なる文法論理から美と感覚論理へと広げました。AIが画面を見ながら人間の操作環境を理解できるようになったとき、本当の意味での自動化されたプログラミング補助（Agentic Coding）が始まったのです。

智譜がGLM-5V-Turboマルチモーダルコーディング大規模モデルを発表

関連推奨

智譜がGLM-5V-Turboをリリース：AIスマートエージェントに火眼金睛を搭載

GLM-5V-Turboを発表：AIプログラミングに目をつける。デザインスケッチがコードに瞬時に変化

IBMとNASA、気象予測支援のためのマルチモーダル基盤モデルを共同開発

命令が多すぎるとクラッシュする？Claude Codeのセキュリティ防御に脆弱性が指摘される

味方を誤って傷つける！Anthropic がリークしたソースコードを緊急に掃除し、数千の GitHub リポジトリが偶然的に影響を受ける