在近期舉辦的Google I/O2025大會上,Google悄然推出了一款開源項目——Google AI Edge Gallery,一款完全本地運行的生成式AI應用,基於最新的Gemma3n模型,集成了多模態能力,支持文本、圖片和音頻輸入。這一項目以其高效的端側AI性能和開源特性,爲開發者提供了構建本地化AI應用的理想模板。

image.png

Google AI Edge Gallery:端側AI的開源新標杆

Google AI Edge Gallery是一款面向Android(iOS版本即將推出)的實驗性應用,允許用戶在本地設備上運行來自Hugging Face的多種開源AI模型,無需聯網即可實現高效推理。項目採用Apache2.0許可證,代碼已公開在GitHub上,開發者可自由使用和修改,極大地降低了端側AI應用的開發門檻。AIbase注意到,該項目不僅展示了Google在端側AI領域的最新成果,還爲開發者提供了一個可快速上手的模板,助力構建定製化的AI應用。

核心亮點在於其基於Gemma3n模型,這是一款專爲移動設備優化的多模態小型語言模型(SLM),支持文本、圖片、音頻和視頻輸入,具備強大的本地推理能力。無論是離線環境下的語音轉錄、圖像分析,還是實時交互,Google AI Edge Gallery都展現了端側AI的巨大潛力。

image.png

多模態能力:文本、圖片、音頻全覆蓋

Google AI Edge Gallery集成了Gemma3n的多模態功能,支持用戶上傳圖片和音頻進行處理。例如,現場技術人員可以拍攝設備照片並提出問題,AI即可基於圖像內容生成精準回答;倉庫工作人員可通過語音更新庫存數據,實現解放雙手的智能交互。此外,Gemma3n支持高質量的自動語音識別(ASR)和語音翻譯功能,能夠處理複雜的多模態輸入,爲開發交互式應用提供了更多可能性。

AIbase瞭解到,Gemma3n的2B和4B參數版本已支持文本、圖像、視頻和音頻輸入,相關模型現已上架Hugging Face,音頻處理功能也將很快推出。相比傳統的雲端大模型,Gemma3n的小型化設計使其在手機、平板等資源受限設備上運行流暢,模型體積僅529MB,卻能以每秒2585個token的預填充速度處理長達一頁的內容。

image.png

開源與高效:開發者友好的設計

Google AI Edge Gallery通過LiteRT運行時和LLM推理API提供輕量級模型執行環境,支持開發者從Hugging Face社區選擇和切換不同模型。項目還集成了檢索增強生成(RAG)和函數調用功能,允許開發者在不進行模型微調的情況下,爲應用注入特定領域的數據。例如,企業可利用RAG技術將內部知識庫與AI結合,提供定製化的問答服務。

此外,Gemma3n支持最新的int4量化技術,相比bf16格式,模型體積可縮小2.5-4倍,同時顯著降低延遲和內存佔用。這種高效的量化方案確保了AI模型在低功耗設備上的卓越性能。開發者可通過Google提供的Colab教程,快速完成模型微調、轉換和部署,極大簡化了開發流程。

離線運行與隱私保護:端側AI的獨特優勢

Google AI Edge Gallery的完全離線運行能力是其最大亮點之一。所有AI推理均在設備端完成,無需依賴網絡或Google Play服務,確保了數據隱私和低延遲響應。這對於醫療、工業維護等對隱私和實時性要求高的場景尤爲重要。例如,現場工作人員可在無網絡環境下通過語音或圖像與AI交互,完成設備診斷或數據記錄。

AIbase認爲,這種離線運行模式不僅提升了用戶體驗,還降低了企業對雲端算力的依賴,減少了運行成本。項目的開源性質進一步賦予開發者自由定製的權利,無論是構建教育助手、醫療支持工具,還是探索創新的交互體驗,Google AI Edge Gallery都提供了堅實的基礎。

行業影響:端側AI的普及與挑戰

Google AI Edge Gallery的發佈標誌着端側AI的進一步普及。相較於Hume AI的EVI3和ElevenLabs的Conversational AI2.0,Google AI Edge Gallery更專注於本地化部署和多模態應用的開源生態,目標是通過Gemma3n賦能開發者社區,打造多樣化的端側AI應用。然而,部分觀點認爲,端側AI與雲端大模型存在性能差距,用戶對“最佳體驗”的追求可能限制其發展。AIbase認爲,隨着硬件性能的提升和模型優化的持續推進,端側AI有望在特定場景中實現與雲端模型相媲美的表現。

Google AI Edge Gallery的推出,不僅展示了Gemma3n在多模態和端側推理上的技術突破,也通過開源方式降低了AI應用的開發門檻。其離線運行、多模態支持和高效量化技術,爲開發者提供了靈活且強大的工具。AIbase預計,該項目將激發更多創新應用,尤其在隱私敏感和資源受限的場景中展現獨特價值。未來,隨着iOS版本的發佈和更多模型的集成,Google AI Edge Gallery有望成爲端側AI開發的標杆。