正微軟的研究團隊近日推出了一種被稱爲 “大型行動模型”(Large Action Model,簡稱 LAM)的人工智能技術,標誌着 AI 的發展迎來了新的階段。與傳統的語言模型如 GPT-4o 不同,LAM 能夠自主操作 Windows 程序,這意味着 AI 不僅僅能對話或提供建議,而是能真實地執行任務。

image.png

LAM 的優勢在於其能夠理解用戶的各種輸入,包括文字、語音和圖像,然後將這些請求轉化爲詳細的步驟計劃。LAM 不僅能制定計劃,還能根據實時情況調整其行動策略。構建 LAM 的過程主要分爲四個步驟:首先,模型學習將任務分解爲邏輯步驟;接着,通過更先進的 AI 系統(如 GPT-4o)學習如何將這些計劃轉化爲具體行動;然後,LAM 會獨立探索新的解決方案,甚至解決其他 AI 系統無法應對的問題;最後,通過獎勵機制進行微調訓練。

在實驗中,研究團隊以 Mistral-7B 爲基礎構建了一個 LAM 模型,並在 Word 測試環境中進行測試。結果顯示,該模型成功完成任務的概率爲71%,相比之下,GPT-4o 在無視覺信息的情況下的成功率爲63%。

此外,LAM 在任務執行速度上也表現優異,每個任務僅需30秒,而 GPT-4o 則需要86秒。雖然在處理視覺信息時,GPT-4o 的成功率提高至75.5%,但總體來看,LAM 在速度和效果上均有顯著優勢。

爲了構建訓練數據,研究團隊最初收集了29,000對任務和計劃的示例,這些數據來自微軟文檔、wikiHow 文章和必應搜索。之後,他們利用 GPT-4o 將簡單任務轉化爲複雜任務,從而將數據集擴展到76,000對,增加了150%。最終,約2,000個成功的行動序列被納入到最終的訓練集中。

image.png

儘管 LAM 展示了其在 AI 發展中的潛力,研究團隊仍然面臨一些挑戰,如 AI 行動可能出錯的問題、監管的相關問題,以及在不同應用中擴展和適應的技術限制。不過,研究人員相信,LAM 代表了 AI 發展的一次重要轉變,預示着人工智能助手將能更積極地協助人類完成實際任務。

劃重點:

🌟 LAM 能夠自主執行 Windows 程序,突破傳統 AI 只會對話的侷限。  

⏱️ 在 Word 測試中,LAM 成功完成任務的概率達到71%,比 GPT-4o 的63% 更高,且執行速度更快。  

📈 研究團隊通過數據擴展策略,將任務計劃對的數量增加到76,000對,進一步提升了模型的訓練效果。