谷歌的 Gemini AI 近期實現了一個令人矚目的技術突破,它能夠同時處理多個視覺流,這在人工智能領域是一項前所未有的成就。這一功能的亮相併不是通過谷歌的主流平臺,而是通過一個名爲 “AnyChat” 的實驗性應用得以展示。

Gemini AI 的這一新能力使其不僅能夠實時觀看視頻,還能同時分析靜態圖像,這打破了以往人工智能只能處理單一視覺輸入的限制。Gradio 的機器學習負責人 Ahsen Khaliq 在接受採訪時表示:“現在你可以在與 AI 進行對話的同時,讓它處理你的實時視頻和任何想分享的圖像。”
AnyChat 的成功實現了這一多流處理能力,這得益於 Gemini AI 先進的神經網絡架構。雖然這種能力在 Gemini 的 API 中已經存在,但尚未在谷歌的官方應用中向普通用戶開放。許多 AI 平臺,包括 ChatGPT,目前只能處理單一流的輸入,當上傳圖像時會禁用實時視頻流。
這項技術的潛在應用非常廣泛。學生可以實時展示數學問題,並向 Gemini 展示教科書,獲得逐步指導。藝術家可以分享正在創作的作品和參考圖像,從而獲得關於構圖和技巧的實時反饋。
AnyChat 的技術突破並非偶然,開發團隊與 Gemini 的技術架構緊密合作,成功地擴展了其能力。通過這些特別的權限,AnyChat 能夠同時追蹤和分析多種視覺輸入,而不影響對話的連貫性。開發者只需簡單的代碼就可以複製這一能力,創建支持視頻流和圖像上傳的自定義平臺。
儘管 AnyChat 目前仍處於實驗階段,但其成功展示了多流 AI 視覺處理的現實潛力。無論是在醫療、工程還是教育等領域,Gemini 的這一新能力都將帶來顛覆性的變化。
AnyChat項目:AnyChathttps://huggingface.co/spaces/akhaliq/anychat
劃重點:
🌟 Gemini AI 實現實時視頻與靜態圖像的同步處理,打破以往限制。
🎨 AnyChat 平臺展示了 AI 在教育、藝術等領域的廣泛應用潛力。
🚀 開發者可以輕鬆利用 Gemini 的技術構建自己的視覺 AI 應用。
