Android Studio集成Gemini新增多模態功能，開發者可上傳圖像獲取UI代碼

谷歌最新宣佈，Android Studio中的Gemini助手已升級支持多模態輸入功能，開發者現在可以直接將圖像附加到提示中，以獲取應用程序開發過程中的視覺輔助。

這項多模態功能最初在I/O2024大會上亮相，升級後的Gemini現能夠"理解簡單的線框，並將其轉換爲可用的Jetpack Compose代碼"。在Android Studio Narwal的Canary版本中，Ask Gemini字段新增了"附加圖像文件"（支持JPEG或PNG格式）選項。谷歌建議用戶使用具有"強烈色彩對比"的圖像並提供"清晰的提示"以獲得最佳效果。

開發者可以上傳從簡單線框到高保真模型的各類屏幕截圖和用戶界面，並能指定預期功能。例如，在計算器設計示例中，可以要求"使交互和計算按預期工作"。

將視覺設計轉化爲功能性UI代碼的典型提示包括:1."針對所提供的此圖像，編寫Android Jetpack Compose代碼以製作儘可能接近此圖像的屏幕。確保包含導入、使用Material3並記錄代碼。"2."對於提供的這張圖片，編寫Android Jetpack Compose代碼以製作儘可能接近此圖片的屏幕，在顏色上發揮創意。使交互和計算按預期進行。確保包含導入、使用Material3並記錄代碼。"

谷歌將Gemini定位爲提供"初始設計框架"的工具，生成的代碼通常需要進一步編輯和調整。常見的改進包括確保正確導入可繪製對象和圖標。谷歌建議將生成的代碼視爲高效起點，從而加速UI開發工作流程。

此外，Gemini的視覺分析功能還可用於識別和解決錯誤，開發者可以"上傳有問題的UI的屏幕截圖，Gemini將分析該圖像並提出潛在的解決方案"。開發者還可以附加相關代碼片段以獲得更精確的幫助。

Android Studio中的Gemini還支持上傳架構圖並獲取解釋或文檔，類似於此前在I/O大會上展示的Gemini Astra眼鏡功能。

谷歌正式發佈 Gemma4開源大模型:涵蓋四種規格，31B 版本位列全球開源榜單第三

谷歌發佈開源大模型Gemma4，通過“單位參數智能”提升，爲開源模型輔助智能體工作流設定新標準。該系列包含2.3B、4.5B高效版及26B、31B高性能版，基於Gemini3技術棧，全系支持多模態輸入，部分版本原生支持語音輸入，實現端側實時語音理解。

llama.cpp徹底進化！本地AI迎來多模態革命，Ollama恐被“降維打擊”

llama.cpp史詩級更新重塑本地AI體驗：從極簡C++引擎升級爲帶現代化Web界面的全能工作臺，實現多模態輸入、結構化輸出和並行交互三大突破，功能直追Ollama等工具。這場社區驅動的革新使其從開發者專用工具轉變爲普通用戶易用的AI平臺。

安卓開發革命！谷歌Android Studio免費Agent模式上線，完爆蘋果生態？

谷歌在Google I/O2025大會上宣佈Android Studio推出免費Agent模式，基於Gemini2.5Pro的AI功能可幫助開發者通過自然語言完成複雜任務。該模式支持UI代碼修改、自定義規則設置，並提供百萬Token上下文窗口處理大規模代碼。相比蘋果Xcode，Agent模式更具優勢，能自動完成依賴更新、用戶旅程測試等任務，大幅提升開發效率。目前該功能已在2025.2Canary版本開放，未來將進一步完善外部工具集成等功能。

智譜AI開源GLM-4.1V-Thinking:多模態推理模型再突破

智譜AI正式開源最新一代通用視覺模型GLM-4.1V-Thinking，基於GLM-4V架構，新增思維鏈推理機制，顯著提升複雜認知任務能力。該模型支持圖像、視頻、文檔等多模態輸入，擅長長視頻理解、圖像問答、學科解題、文字識別、文檔解讀、Grounding、GUI Agent及代碼生成等多樣化場景，覆蓋千行百業的應用需求。GLM-4.1V-9B-Thinking在28項權威評測中表現卓越，其中23項達成10B級模型最佳成績，18項持平或超越72B參數的Qwen-2.5-VL，涵蓋MMStar、MMMU-Pro、ChartQAPro、OSWorld等基準測試。其9億參數規模結合高效推理能力

Android Studio集成Gemini新增多模態功能，開發者可上傳圖像獲取UI代碼

相關推薦

谷歌正式發佈 Gemma4開源大模型:涵蓋四種規格，31B 版本位列全球開源榜單第三

基於節點的設計工具 Flora 獲 4200 萬美元 A 輪融資，紅點創投領投

llama.cpp徹底進化！本地AI迎來多模態革命，Ollama恐被“降維打擊”

安卓開發革命！谷歌Android Studio免費Agent模式上線，完爆蘋果生態？

智譜AI開源GLM-4.1V-Thinking:多模態推理模型再突破