4月2日、智譜は視覚プログラミングに特化したマルチモーダルベースモデル GLM-5V-Turbo を正式にリリースしました。このモデルはコードを書くだけでなく、「世界を理解する」能力も備えており、AIエージェントの感覚フローを単なる文字列から豊かなデザインとウェブインターフェースにまで広げることを目的としています。

image.png

主要な突破点:画像が読める、コードが書ける

オリジナルのマルチモーダルコーディングベースとして、GLM-5V-Turbo は視覚とプログラミング能力を深く統合しています:

  • 多面的な認識: 画像、動画、デザイン図面、複雑なドキュメントレイアウトを原生的に理解し、枠やスクリーンショット、ウェブページの読み込みなどのさまざまな視覚ツールの呼び出しをサポートします。

  • 広範な視野: プロジェクト全体や長文技術文書など、大規模なデータを扱うために、コンテキスト窓が200kまで拡張されています。

  • 性能の優位性: マルチモーダルコーディングやGUIエージェント(グラフィカルユーザーインターフェースの知能体)などの主要なベンチマークテストで、より小さなサイズでも競合製品を上回るパフォーマンスを発揮しています。

image.png

代表的なシナリオ:“スケッチ”から“完成品”への秒単位の飛躍

GLM-5V-Turbo の導入により、開発者はこれまでにないワークフローを体験できます:

  • フロントエンドの再現: 設計図のスクリーンショットや操作録画を送るだけで、モデルはレイアウト、カラーコード、インタラクションロジックを理解し、直接実行可能なフロントエンドプロジェクトを生成します。

  • GUIの自律的探索: Claude Codeなどのフレームワークと組み合わせて、モデルは人間のようにウェブサイトを自主的に閲覧し、ジャンプ関係を整理して素材を収集し、全サイトレベルの視覚的な再現が可能です。

  • 対話型編集: 会話を通じてモジュールの追加・削除、スタイルの変更、レイアウトの調整が可能で、可視化されたコードの反復作業が可能です。

「カニ」の強化:AutoClawが視覚的な進化を迎える

智譜が自社開発したスマートエージェント AutoClaw(カニ) にこのモデルを統合することで、もともとテキスト処理のみを行っていた「カニ」は本格的な視覚能力を獲得しました。例えば、現在ではK線チャートや証券レポート内の複雑なグラフを直接理解でき、60秒以内に複数のデータ収集を行い、図表を添えた専門的な分析レポートを出力することが可能です。

業界の観察:プログラミングは「盲人が象をさわる」ようなものではなくなった

GLM-5V-Turbo のリリースにより、智譜はAIの理解力を単なる文法論理から美と感覚論理へと広げました。AIが画面を見ながら人間の操作環境を理解できるようになったとき、本当の意味での自動化されたプログラミング補助(Agentic Coding)が始まったのです。