近日,微軟在其官網正式開源了一款名爲 “Magma” 的多模態 AI Agent 基礎模型。這款新型人工智能具有跨越數字和物理世界的能力,能夠同時處理圖像、視頻、文本等多種數據類型。與傳統的 AI 助手相比,Magma 的獨特之處在於其心理預測功能,使其能夠更加準確地理解視頻中人物或物體的意圖及未來行爲。

QQ_1740532404239.png

Magma 的應用場景十分廣泛,用戶可以利用這款 AI 進行自動下單購物、查詢天氣等日常操作。此外,它還能夠自動控制實體機器人,並在下象棋等活動中爲用戶提供實時幫助。這種多模態能力使 Magma 在不同環境中表現出色,能夠適應各種複雜任務。

根據官方介紹,Magma 特別適合用於 AI 驅動的助手或機器人,幫助它們更好地理解周圍的環境並採取相應的行動。舉例來說,它可以指導家用機器人學習如何整理從未見過的物品,或者幫助虛擬助手爲用戶生成逐步的操作指南。這種特性大大提高了機器人的學習能力和實用性。

Magma 模型是 VLA(視覺語言動作)系列之一,通過學習海量的公開視覺和語言數據,能夠融合語言、空間和時間的智能,從而有效應對現實生活中的複雜任務與挑戰。隨着人工智能技術的發展,Magma 的推出標誌着智能助手和機器人技術又向前邁出了一大步。

項目鏈接:https://microsoft.github.io/Magma/

劃重點:  

🌐 ** 跨模態能力 **:Magma 能夠處理圖像、視頻和文本等多種數據類型,提升智能助手的功能。  

🤖 ** 智能應用 **:用戶可通過 Magma 自動下單、查詢天氣,以及控制實體機器人。  

📚 ** 學習適應性 **:Magma 幫助機器人學習新任務,併爲虛擬助手生成操作指南,增強了其實用性。