通義千問シリーズは、Qwen-Imageという20億パラメータのマルチモーダル・ディフュージョン・トランスフォーマー(MMDiT)画像生成ベースモデルを初めてオープンソース化しました。この革新的な成果は、複雑なテキストレンダリングや正確な画像編集において画期的な進展を遂げ、いくつかの公開ベンチマークテストで優れた性能を示し、画像生成と編集分野の新興スターとなっています。
Qwen-Imageは強力なテキストレンダリング能力で注目されています。複数行のレイアウト、段落レベルのテキスト生成、細かいディテールの提示をサポートしており、英語でも中国語でも高精度な出力を実現します。例えば、宮崎駿風のアニメシーンをレンダリングする際には、店舗の看板、人物のポーズや表情、さらには酒樽に刻まれた小さな文字さえも明確に再現できます。また、中国語の対聯(たいれん)のレンダリングでは、左右の対句と横批を正確に描き、書道の効果を巧みに取り入れており、見事さに感動させられます。
英語のテキストレンダリングにおいても、Qwen-Imageは優れた性能を発揮します。書店のショーケースに表示される情報や複雑な情報グラフィックなど、モデルはテキストコンテンツを正確無比に生成し、全体の構図に巧妙に組み込み、高い芸術性と情報性を示します。さらに驚くべきことに、より小さい文字や多くのテキストを処理する場合でも、Qwen-Imageは高い正確性と鮮明さを維持します。例えば、手に持った紙に長文を正確に生成したり、ガラス板に手書きの段落を完全に表示することも可能です。
テキストレンダリングだけでなく、Qwen-Imageは画像編集においても非凡な実力を発揮しています。拡張されたマルチタスクトレーニング方式により、モデルは編集中に一貫性を保つことができ、スタイル移行、オブジェクトの追加や削除、ディテールの強化、人物のポーズ調整などの操作をサポートします。これにより、一般ユーザーでもプロ級の画像編集が簡単に実現でき、視覚的コンテンツ作成の技術的ハードルを大幅に下げています。
いくつかの公開ベンチマークテストにおいて、Qwen-Imageのパフォーマンスは特に注目を集めています。一般的な画像生成のGenEval、DPG、OneIG-Bench、および画像編集のGEdit、ImgEdit、GSOから、Qwen-Imageはすべてで最先端の性能を達成し、画像生成と編集における全面的な優位性を示しています。特に中国語のテキストレンダリングにおいて、Qwen-Imageは現在の最先端モデルを大きく上回り、先進的な画像生成モデルとしての独自の地位を示しています。
現在、Qwen-Imageは魔搭コミュニティ、Hugging Face、GitHubなどのプラットフォームでオープンソース化されており、詳細なTechnical reportとDemoが提供されています。ユーザーはQwenChat(chat.qwen.ai)にアクセスし、「画像生成」機能を選択することで、この強力なモデルの魅力を体験することができます。
ModelScope:https://modelscope.cn/models/Qwen/Qwen-Image
Hugging Face:https://huggingface.co/Qwen/Qwen-Image
GitHub:https://github.com/QwenLM/Qwen-Image
Technical report:https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf
Demo: https://modelscope.cn/aigc/imageGeneration?tab=advanced