谷歌近日爲其 Gemini2.5AI 模型推出了一項創新功能——“對話式圖像分割”,允許用戶通過自然語言提示直接分析和突出顯示圖像內容。這項技術超越了傳統的圖像分割範疇,賦予 Gemini 理解並響應更復雜、更具語義的指令的能力。
超越傳統,理解抽象與關係
傳統圖像分割通常侷限於識別如“狗”、“汽車”或“椅子”等固定類別的物體。而現在,Gemini 可以理解並應用於圖像特定部分的更復雜語言。它能夠處理:關係查詢:例如“撐傘的人”。基於邏輯的指令:例如“所有非坐着的人”。抽象概念:甚至能識別“雜物”或“損壞”等沒有清晰視覺輪廓的概念。
此外,得益於內置的文本識別功能,Gemini 還能識別需要閱讀屏幕文本的圖像元素,例如展示櫃中的“開心果果仁蜜餞”。該功能支持多語言提示,並可按需提供其他語言(如法語)的物體標籤。
廣泛應用:從設計到安全再到保險
谷歌表示,這項技術在多個領域都具有廣泛的實際應用價值:圖像編輯:設計師無需鼠標或選擇工具,只需口頭指令,如“選擇建築物的陰影”,即可精準選中所需區域。工作場所安全:Gemini 可以掃描照片或視頻,自動識別違規行爲,例如“施工現場所有未戴頭盔的人”。保險行業:理賠員可以發出“突出顯示所有遭受風暴破壞的房屋”等命令,自動在航拍圖像中標記受損建築,大幅節省手動檢查時間。
開發者友好:API 訪問與優化建議
這項強大的功能無需特殊的獨立模型。開發者可以通過 Gemini API 直接訪問“對話式圖像分割”功能,所有請求均由具備此功能的 Gemini 模型直接處理。
返回的結果以 JSON 格式呈現,包含所選圖像區域的座標(box_2d
)、像素掩碼(mask
)和描述性標籤(label
),爲後續開發提供便利。
爲獲得最佳效果,谷歌建議使用 gemini-2.5-flash
模型,並將 thinkingBudget
參數設置爲零以觸發即時響應。開發者可以通過 Google AI Studio 或 Python Colab 進行初步測試。