近日,微軟與加州大學伯克利分校、伊利諾伊大學等研究機構聯合開源了一個名爲 AIOpsLab 的項目,旨在爲雲自動化運維提供一套智能代理系統。AIOpsLab 能夠模擬真實雲服務環境中的複雜操作任務,支持故障的自動檢測、定位及解決,顯著提高雲服務的可觀測性與運維效率。

802df291fffba9010d723a8a951a7a87.png

AIOpsLab 的主要功能是通過模塊化設計,支持人類與數字代理的協作,方便開發者擴展應用程序、處理不同工作負載及故障場景。其架構由五個關鍵部分組成:協調器、服務、工作負載生成器、故障生成器以及可觀測性。

協調器負責與智能體建立會話,並共享有關基準測試問題的信息。它通過調用一系列文檔化的 API(如獲取日誌、指標等),幫助智能體有效解決任務。協調器還可以代表智能體進行操作,比如擴展或重新部署服務,確保智能體能夠在實際環境中順利運行。

服務模塊可以適應多種真實雲服務環境,如微服務、無服務器及單體服務。AIOpsLab 還利用開源應用套件 DeathStarBench,爲研究人員提供了一種在受控環境中復現和研究生產事件的工具。此外,通過集成 Blueprint 等工具,AIOpsLab 還能夠擴展到其他學術和生產服務中,便於快速部署新變體。

工作負載生成器在 AIOpsLab 中扮演着重要角色,負責創建正常和故障場景的模擬,以測試智能體在不同條件下的性能。它根據協調器的規範生成相應的工作負載,幫助用戶在多種情況中進行測試。

故障生成器則是 AIOpsLab 的一項創新功能,能夠在多種雲場景中實施細粒度的故障注入。這一功能能夠模擬複雜的故障全流程,並考慮微服務之間的相互依賴性,爲用戶提供全面的測試與評估能力。

最後,可觀測性功能通過整合多種監控工具,提升 AIOpsLab 的全面監控能力,確保用戶能夠獲得定製化的系統信息,以便在可能的數據過載情況下進行有效管理。

開源地址:https://github.com/microsoft/AIOpsLab/?tab=readme-ov-file

劃重點:

🌐 微軟與高校聯合開源 AIOpsLab,旨在提升雲服務的自動化運維能力。  

🛠️ AIOpsLab 通過協調器、服務、工作負載生成器、故障生成器和可觀測性五大部分構成,支持多種雲服務環境。  

🔍 可觀測性功能整合多種監控工具,確保用戶獲得有效的系統信息和監控能力。