谷歌實驗室近日在美國推出了最新的生成式人工智能實驗工具 Whisk。與傳統的圖像生成工具主要依賴文本提示不同,Whisk 着重使用圖像作爲輸入方法,允許用戶更直觀地創造藝術作品。

用戶可以直接上傳圖片至 Whisk,或者在該工具內生成圖片,指定主題、場景和風格等元素。Whisk 系統支持用戶混合和匹配這些組件,並可根據需要使用附加的文本提示進行微調。

image.png

值得注意的是,在後臺,谷歌的語言模型(可能是最近發佈的 Gemini2.0Flash)會自動生成輸入圖像的詳細描述。這些描述將輸入到谷歌最新的圖像生成模型 Imagen3中,從而捕捉主體的本質特徵,而不是創造出完全相同的複製品。

AIbase進行了多次測試,上傳了左側的三張圖片,就可以融合生成右側的結果,效果還不錯,可玩性很高。如下:

8a92dca39c0f78a14c7a360b3fe86803.png

2a4e7ad2d1618ebedcb8151bb9b8b117.png

然而,由於 Whisk 僅提取每個源圖像中的少數關鍵元素,谷歌提醒用戶生成的圖像結果可能與預期有所不同。例如,生成的圖像可能在高度、體重、髮型或膚色上與原圖存在差異。

對此,谷歌表示,這些細節往往對項目的成敗至關重要,因此允許用戶查看和編輯驅動圖像生成過程的文本提示。

早期測試者,包括一些藝術家和創意專業人士,表示 Whisk 更像是一種新的創意工具,而不是傳統的圖像編輯器。谷歌希望該工具能幫助用戶快速進行視覺頭腦風暴,而不是精確編輯,讓用戶在保存喜愛的作品之前,可以迅速生成和篩選多個選項。

經初步測試,雖然 Whisk 使用起來十分愉快,但每生成一張新圖像需要等待幾秒鐘。這些延遲可能是由於高流量造成的,用戶們紛紛涌入體驗這一新工具。

目前,Whisk 僅對美國用戶開放,用戶可以在 labs.google/whisk 免費嘗試並分享反饋。至於其他國家的用戶,則暫時無法訪問這一工具。

Whisk 隸屬於谷歌實驗室,這是谷歌測試其 AI 項目的試驗場,包括 Gemini、Imagen 以及最新的視頻模型 Veo2等。雖然大多數項目仍處於實驗階段,但一些成功的項目,如最近正式發佈的 AI 助手 NotebookLM,則會轉變爲完整產品。

產品體驗地址:https://top.aibase.com/tool/whisk

劃重點:  

🌟 谷歌推出 Whisk,首個以圖像爲主導的生成式 AI 工具。  

🎨 用戶可上傳或生成圖像,快速進行視覺設計而非精確編輯。  

🚫 目前僅限美國用戶試用,其他國家暫無法訪問。