Googleは、従来の画像生成モデルを覆す新しいAIツール「Whisk」を発表しました。これは、長々としたテキストの説明ではなく、画像をプロンプトとして使用できる点が革新的です。

Whiskを使用すると、画像をアップロードしてAIが生成する画像のテーマ、シーン、スタイルを指定できます。これら3つの要素それぞれに複数の画像を使用することも可能です。

image.png

例えば、私は子豚の画像と猫の画像を入力し、スタイルとしてイラスト風の画像を選択しました。テキストプロンプトは何も入力しませんでした(もちろん、テキストプロンプトも同時に使用できます)。すると、自動的にこのような画像が生成されました。SCENEには通常、シーンの画像を入力しますが、私のようにキャラクター画像を入力しても問題ありません。AIは自動的に融合して生成しますが、関連性が低い場合もありますが、意外な発見があるかもしれません。

適切な画像がない場合は、サイコロのアイコンをクリックして、Googleが自動的にいくつかの画像をプロンプトとして追加します(これらの画像はAIが生成したものと思われます)。

image.png

試しにクリックしてみると、Googleはランダムに犬、小舟、刺繍の画像を選びました。どんな結果になるか見てみましょう。

image.png

なかなか良いですね。3つの画像の要素が完璧に融合し、面白い刺繍の絵になりました。

image.png

画像をクリックすると、Whiskは生成された各画像にテキストプロンプトを提供していることがわかりました。結果に満足したら、画像を保存またはダウンロードできます。さらに最適化したい場合は、テキストボックスにテキストを追加するか、画像をクリックしてテキストプロンプトを直接編集できます。

Googleのブログ記事では、Whiskは「ピクセルレベルの精密な編集ではなく、迅速な視覚的探求」を目的としていると強調されています。また、Whiskは「的外れになる」可能性があるため、ユーザーが基になるプロンプトを編集できるようにしていると述べています。

Whiskツールを数分間使用してみましたが、非常に面白かったです。画像生成には数秒かかり、少しイライラする部分もありましたし、生成された画像が奇妙な場合もありましたが、反復的なプロセスは非常に興味深いものでした。

Googleによると、Whiskは最新のImagen3画像生成モデルを使用しており、このモデルも本日正式にリリースされました。Googleは同時に、次世代のビデオ生成モデルVeo2も発表しました。これは「映画特有の言語」を理解し、「より少ない」頻度で余分な指などの幻覚が発生すると言われています。Veo2はまずGoogleのVideoFXで提供され、ユーザーはGoogleラボのウェイティングリストから体験を申請できます。来年にはYouTube Shortsなどの他の製品にも展開する予定です。

総じて、Whiskの登場は画像生成に全く新しい可能性をもたらし、ユーザーは視覚的な方法で創造性を表現し、より簡単に画像をパーソナライズできます。

製品体験アドレス:https://top.aibase.com/tool/whisk