グーグル社はこのほど、新規なテキストから画像生成を行うモデル「Imagen4」を正式にリリースしました。このモデルは現在、Gemini APIとGoogle AI Studioプラットフォームを通じてユーザーに公開されています。公式によると、新バージョンは前バージョンに比べてテキストレンダリング性能において大幅な向上を遂げています。

今回のリリースには3つの異なるバージョンのモデルが含まれています。スタンダード版のImagen4は、全体的な画像生成品質を向上させ、特にテキストレンダリングの正確性において優れた性能を発揮しています。

高速な生成が必要なユーザー向けに、グーグルは同時にImagen4Fastバージョンをリリースしました。このモデルは高速な画像生成および大規模な処理タスクに特化して最適化されており、処理速度が大幅に向上し、1回の生成あたりのコストは0.02ドルにまで低下しています。大量の画像生成を必要とするユーザーにとって経済的で実用的なソリューションです。

高品質な出力が必要なユーザー向けには、グーグルはImagen4Ultraバージョンも提供しています。このバージョンはより細かい画像のディテールを生成でき、ユーザーが入力したテキストの指示をより正確に理解し、生成結果の一貫性と正確性を保証します。

グーグルが提供する例によると、ユーザーが「朝焼けの美しい山脈、澄んだ湖に雪をかぶった山々の反射」などといった記述的なテキストを入力すると、Imagen4はそれに対応する高品質な自然風景の画像を生成できます。

業界の専門家は、Imagen4のリリースがアート制作、広告デザイン、コンテンツ制作などの多くの業界にさらに強力なツールサポートを提供することになると考えています。テキストから画像生成する技術が継続的に進化していく中で、このようなAIツールはクリエイティブ産業における応用の可能性がますます広がっています。