AI画像生成プラットフォームのIdeogramは6月3日にオープンワイトモデルであるIdeogram4.0を正式リリースしました。公式発表されたベンチマークテスト結果によると、このモデルは現在の性能が優れたオープンソース画像生成モデルの一つであり、テキスト生成とレイアウト制御能力において顕著な向上を遂げています。
Ideogram4.0のコア規模は93億パラメータ(9.3B)に達し、近年の主流となるオープンソースモデルで一般的に採用されている単一フロー(Single-Stream)アーキテクチャを採用しています。これにより、テキストトークンと画像トークンが統一された自己注意シーケンス内で連携してモデリングされるため、テキストと視覚コンテンツの協調生成能力が向上します。また、モデルはデザインの制御性を核心的な目標としており、トレーニングおよび推論の両フェーズでレイアウト、フォント設定、視覚要素の制御能力を強化しています。

技術的構造上、Ideogram4.0はQwen3-VL-8B-Instructテキストエンコーダー、34層のトレーナブルな単一フロー拡散トランスフォーマー(DiT)、Euler Flow Matchingサンプラー、および凍結されたKLオートエンコーダーから構成されています。この組み合わせにより、モデルは画像品質、テキスト理解力、生成効率の両方を考慮することができます。
公式展示された事例では、Ideogram4.0は人物、場面、商業デザイン、ポスター、ブランドビジュアルなど多様なタイプの画像を生成できることが示されています。その中でも、テキストレンダリング能力が今回のアップグレードにおける最大のポイントとなっています。従来のテキストから画像生成モデルではよく見られる文字の乱れやスペルミスなどの問題に対し、Ideogram4.0は画像内での長文コンテンツの正確な表示が可能です。これはポスターデザイン、商品紹介画像、カバー作成、SNSマーケティング素材などのシーンにおいて高い実用価値があります。

レイアウト制御能力を強化するために、Ideogramはトレーニングプロセス中にオブジェクトとテキストのバウンディングボックスデータを導入し、モデルが画像要素間の空間関係を理解するようにしています。さらに構造化されたJSONサブタイトルデータを使ってトレーニングを行うことで、ユーザーはヒント文によってオブジェクトの位置、テキストレイアウト、全体的なレイアウト構造をより正確に制御でき、プロフェッショナルなデザインツールに近い創作体験を実現できます。
第三者の評価において、DesignArenaの最新ランキングでは、Ideogram4.0はNano Banana Proを上回り、世界第4位にランクインしました。DesignArenaはモデルのアイデンティティを隠した上で人間による審査を実施し、生成結果を盲検でスコア付けしているため、画像品質やビジュアル表現力に関するリアルなユーザーの主観的な評価を比較的に正確に反映しています。
オープンソース画像生成モデルの競争がますます激化する中、Ideogram4.0は優れたテキスト生成能力和デザインの制御性を備えており、ポスターメイキング、ブランドマーケティング、ビジュアルコンテンツ制作分野において注目すべき新選択肢となっています。
