テンセントは、業界で初めてオープンソースの商用対応のネイティブマルチモーダル画像生成モデルである「混元画像3.0」を正式にリリースしました。このモデルは800億パラメータを持ち、現在のオープンソース画像生成モデルの中で効果が最も良く、パラメータ数が最大のものであり、トップクラスの閉鎖型モデルと同等の性能を持っています。ユーザーはテンセントの混元公式サイトでこのモデルを体験できます。また、モデルの重みと高速化バージョンもGitHubやHugging Faceなどのオープンソースコミュニティで公開されており、開発者向けに無料でダウンロードおよび使用可能です。

image.png

 ネイティブマルチモーダル技術構造

混元画像3.0の特徴は、「ネイティブマルチモーダル」技術構造です。この構造により、ユーザーは1つのモデルを使ってテキスト、画像、動画、音声など複数の入力と出力を同時に処理できるようになり、複数のモデルの組み合わせに依存する必要がありません。この革新により、モデルは画像生成と意味理解の両方の能力を備えており、思考能力を持つ「スマートな画家」と似たような存在です。

image.png

高度な意味理解と自動生成

このモデルの意味理解能力は大幅に向上し、ユーザーが簡単なプロンプトを入力するだけで、例えば「月食の四コマ科学漫画を生成してください」というように、モデルが完全な漫画を自動的に生成することができます。ユーザーが各コマについて詳細に説明する必要はありません。

画像

混元画像3.0の意味理解能力和美学的質感も大きく向上しており、ユーザーの指示を正確に生成することが可能になりました。画像内の小さな文字や長文の生成にも良好に対応しています。

公式の例:例えば、「あなたは小紅書のファッションコーディネーターです。モデルのファッションスタイルに基づいてカバーアートを生成してください。要求:1. 画面の左側にはモデルのOOTD全身写真があります。2. 右側には服の展示があり、上着は深茶色のジャケット、下着は黒いプリーツスカート、茶色のブーツ、黒いバッグです。スタイル:実物撮影、現実的で雰囲気がある、秋のメイラードカラーコーディング。」このプロンプトに対して、混元画像3.0は左側のモデルのファッションを右側の単独の服に正確に分解できます。

画像

さらに、混元画像3.0は複雑なテキスト要件を処理でき、詳細な商品画像、ポスター、挿絵などを生成し、さまざまな創作ニーズに対応できます。

創造性の効率向上

混元画像3.0のリリースにより、イラストレーターとデザイナーだけでなく、美術的な基礎がないコンテンツクリエイターも高品質なビジュアルコンテンツを作成しやすくなります。以前は数時間かかっていた創作プロセスが、今では数分で完了するため、創造性の効率が大幅に向上します。

多タスクトレーニングと将来展望

混元画像3.0は、50億のテキスト・画像ペアと6TBの語料データを使用してマルチモーダル混合トレーニングを行っており、複数のタスクの効果を十分に統合することで、非常に強力な意味理解能力を備えています。テンセントチームは、今後図像から図像への生成、画像編集、複数回のインタラクションなどの新機能を順次リリースする予定であり、ユーザー体験をさらに強化する予定です。

ユーザーは、テンセントの混元公式サイト(https://hunyuan.tencent.com/image)にアクセスすることで、この新しい画像生成技術を体験できます。また、混元画像3.0のモデルの重みと高速化バージョンはGitHubやHugging Faceなどのオープンソースプラットフォームで公開されており、ユーザーは無料でダウンロードおよび使用できます。

ポイント:

 🌟 混元画像3.0は、初のオープンソースのネイティブマルチモーダル画像生成モデルで、パラメータ数は80Bです。

🖌️ このモデルは優れた意味理解能力を持ち、簡潔なプロンプトで複雑な画像を生成できます。

🚀 モデルのリリース後、ビジュアルクリエイターの効率が向上し、今後はより多くの機能が追加され、さまざまなニーズに対応します。