智譜AIは最近、視覚プログラミング専用の大規模モデル「GLM-5V-Turbo」を発表しました。このモデルの最大の突破点は、文字だけでなくデザイン図やウェブスクリーンショットを直接「理解できる」ことにあるのです。
ネイティブなマルチモーダル機能を統合することで、GLM-5V-TurboはAIプログラミングが純テキスト入力の限界を越えました。開発者は一度にスケッチやインターフェースのスクリーンショットをアップロードするだけで、モデルが実行可能なフロントエンドコードを自動生成します。

視覚認識:「ドキュメントを読む」から「インターフェースを見る」へ
この新しいモデルは200kの超長文脈窓を持ち、非常に複雑なコードベースを処理できます。Webページのレイアウトだけでなく、カラーやコンポーネントの階層構造、そして微細なインタラクションロジックも正確に捉えられます。
実際のテストでは、GLM-5V-Turboはデザイン図の再現やビジュアルコード生成などのタスクで優れたパフォーマンスを示しています。これにより、ビジュアル資料から完成品のページへの変換効率は質的な飛躍を遂げます。

スマートエージェントの強化:「カニ(龙虾)」に観察力を与える
智譜のAutoClaw(カニ)スマートエージェントは、このモデルに接続されることで本格的な視覚能力を獲得しました。今や、人間のようにウェブページをブラウズでき、複雑なK線チャートや証券会社の分析グラフを解釈することもできます。
現在、カニには「株式アナリスト」機能が搭載されており、4つのデータソースを並列で取得できます。60秒以内で市場動向を理解し、画像と文章を組み合わせた専門的なレポートを作成することが可能です。これはAIアシスタントのタスク範囲を大幅に拡大しています。
智譜のこの取り組みは、AIエージェントの感知プロセスが純テキストから視覚的インタラクション領域へと正式に拡張されたことを意味します。AIが「見えるものはすべて即座に作成できる」能力を持つようになれば、ソフトウェア開発のハードルはさらに低下します。
