4月2日、

主要な突破点:画像が読める、コードが書ける
オリジナルのマルチモーダルコーディングベースとして、
多面的な認識: 画像、動画、デザイン図面、複雑なドキュメントレイアウトを原生的に理解し、枠やスクリーンショット、ウェブページの読み込みなどのさまざまな視覚ツールの呼び出しをサポートします。
広範な視野: プロジェクト全体や長文技術文書など、大規模なデータを扱うために、コンテキスト窓が200kまで拡張されています。
性能の優位性: マルチモーダルコーディングやGUIエージェント(グラフィカルユーザーインターフェースの知能体)などの主要なベンチマークテストで、より小さなサイズでも競合製品を上回るパフォーマンスを発揮しています。

代表的なシナリオ:“スケッチ”から“完成品”への秒単位の飛躍
フロントエンドの再現: 設計図のスクリーンショットや操作録画を送るだけで、モデルはレイアウト、カラーコード、インタラクションロジックを理解し、直接実行可能なフロントエンドプロジェクトを生成します。
GUIの自律的探索: Claude Codeなどのフレームワークと組み合わせて、モデルは人間のようにウェブサイトを自主的に閲覧し、ジャンプ関係を整理して素材を収集し、全サイトレベルの視覚的な再現が可能です。
対話型編集: 会話を通じてモジュールの追加・削除、スタイルの変更、レイアウトの調整が可能で、可視化されたコードの反復作業が可能です。
「カニ」の強化:AutoClawが視覚的な進化を迎える
智譜が自社開発したスマートエージェント
業界の観察:プログラミングは「盲人が象をさわる」ようなものではなくなった
