谷歌最新宣佈,Android Studio中的Gemini助手已升級支持多模態輸入功能,開發者現在可以直接將圖像附加到提示中,以獲取應用程序開發過程中的視覺輔助。

QQ20250314-144401.png

這項多模態功能最初在I/O2024大會上亮相,升級後的Gemini現能夠"理解簡單的線框,並將其轉換爲可用的Jetpack Compose代碼"。在Android Studio Narwal的Canary版本中,Ask Gemini字段新增了"附加圖像文件"(支持JPEG或PNG格式)選項。谷歌建議用戶使用具有"強烈色彩對比"的圖像並提供"清晰的提示"以獲得最佳效果。

開發者可以上傳從簡單線框到高保真模型的各類屏幕截圖和用戶界面,並能指定預期功能。例如,在計算器設計示例中,可以要求"使交互和計算按預期工作"。

QQ20250314-144410.png

將視覺設計轉化爲功能性UI代碼的典型提示包括:1."針對所提供的此圖像,編寫Android Jetpack Compose代碼以製作儘可能接近此圖像的屏幕。確保包含導入、使用Material3並記錄代碼。"2."對於提供的這張圖片,編寫Android Jetpack Compose代碼以製作儘可能接近此圖片的屏幕,在顏色上發揮創意。使交互和計算按預期進行。確保包含導入、使用Material3並記錄代碼。"

QQ20250314-144418.png

谷歌將Gemini定位爲提供"初始設計框架"的工具,生成的代碼通常需要進一步編輯和調整。常見的改進包括確保正確導入可繪製對象和圖標。谷歌建議將生成的代碼視爲高效起點,從而加速UI開發工作流程。

此外,Gemini的視覺分析功能還可用於識別和解決錯誤,開發者可以"上傳有問題的UI的屏幕截圖,Gemini將分析該圖像並提出潛在的解決方案"。開發者還可以附加相關代碼片段以獲得更精確的幫助。

Android Studio中的Gemini還支持上傳架構圖並獲取解釋或文檔,類似於此前在I/O大會上展示的Gemini Astra眼鏡功能。