腾讯は最新の「混元画像2.0」モデル(Hunyuan Image2.0)を正式にリリースし、AIによる画像生成技術が「ミリ秒級」の反応時代へと進化しました。

image.png

この新モデルは、処理速度において大幅な改善が見られ、前世代の製品と比べてパラメーター量が1桁増加しています。効率的な画像エンコーダーと新しい拡散アーキテクチャを組み合わせることで、通常5~10秒かかる推論時間をミリ秒単位に短縮できました。ユーザーはテキストの入力や音声コマンドをしながらリアルタイムで画像を生成できるため、「カード引き出し - 待機 - 再度カード引き出し」という従来のプロセスを変革し、インタラクション体験を向上させました。

image.png

超高精細な画像品質

速度の進化だけでなく、混元画像2.0は画像生成の品質でも大きな進展を見せています。このモデルは強化学習と多くの人間の美的知識を導入することで、「AI臭」を効果的に回避し、生成された画像は高い現実感と豊かなディテールを持ち、非常に実用的です。国際的な権威あるGenEvalベンチマークテストでは、複雑なテキスト命令の理解・生成能力の評価において95%以上の正確率を達成し、他の類似モデルを大きく上回っています。

革新的なリアルタイムペインティングボード機能

今回のアップデートではリアルタイムペインティングボード機能も追加されました。この機能は新モデルのリアルタイム画像生成能力を利用し、線画の描画やパラメーターの調整を行う際にプレビュー領域で同時に塗りつぶし効果を生成します。この機能により、従来の「描画 - 待機 - 変更」というプロセスを突破し、専門デザイナーの制作過程を大幅に簡素化しました。さらに、リアルタイムペインティングボードは複数のスケッチの融合をサポートし、ユーザーは複数の草稿をアップロードすると、AIが透視感や光と影を自動調整し、ユーザーの指示に基づいて融合画像を生成します。これにより、AIによる画像生成のインタラクティブな体験をさらに豊かにしました。

image.png

腾讯はまた、本格的なマルチモーダル画像生成大規模モデルの開発を進めていることを明らかにし、新モデルは複数回の画像生成とリアルタイムインタラクション体験などで優れたパフォーマンスを発揮し、ユーザーにさらに豊かな創造体験を提供することを目指しています。

製品ページ: https://hunyuan.tencent.com/