テンセント・ハンユアンは正式にハニエン画像3.0図生図(HunyuanImage3.0-Instruct)モデルを発表しました。このモデルは現在、テンセントのAIアシスタント「ヤオイン」の全端末およびテンセントハニエン公式サイトで同時に公開されており、テンセントがネイティブなマルチモーダル画像処理分野で新たな突破を遂げたことを示しています。

ハニエン画像3.0図生図は主流のミックスエキスパート(MoE)構造を採用しており、総パラメータ数は80B(アクティブパラメータは約13B)です。従来のフィルターや編集とは異なり、これは「考える」能力を持つ画像編集モデルとして定義されています。ユーザーからのプロンプトと画像を受け取ると、モデルはまず画像の内容を深く理解し、その後必要な修正領域と手順を独自に推論します。そして変更が必要ない画像の詳細を正確に保持することで、論理的な出力結果を実現します。

image.png

機能面では、このモデルは非常に柔軟性があります。基本的な要素の追加や削除、スタイルの変更、古い写真の修復だけでなく、複数の画像から人物や要素を抽出して合成する強力な複数画像融合機能も備えています。一般ユーザーにとって、これは直接ヤオイン上でカスタマイズされたイモジや仮想コラボレーションを作成したり、プロフェッショナルなECポスターのデザインやゲームキャラクターのカスタマイズを完成させることを可能にします。

このモデルを磨き上げるために、ハニエンチームは千万規模の図生図データセットを構築し、80以上のサブタスクをカバーしています。思考連鎖トレーニングと自社開発のMixGRPOアルゴリズムを導入したことで、モデルは指示応答速度と画像の一貫性において顕著な向上を遂げました。感情表現力や生成のリアルさにおいても、ハニエン画像3.0図生図はAI画像制作のためにより専門的かつ使いやすいツールの選択肢を提供しています。

ポイント:

  • 🧠 自律的な推論編集:ハニエン画像3.0図生図は元画像を理解した上で指示を実行し、修正領域を自動分析し、非編集領域の一貫性を保持します。

  • 🎨 多様なシーンでの機能対応:古写真の修復、人物のコラボレーション合成、複雑なテキストの編集に対応しており、ECポスター、ゲームカスタマイズなどのクリエイティブな分野で広く利用可能です。

  • 性能と効率の両方の向上:80BのMoE構造と千万規模のデータセットに基づき、モデルは生成画像の感情の張力が強く、前世代に比べて生成速度が大幅に向上しています。