微軟發佈Web智能體Magentic-UI，專門設計用於解決複雜的網頁任務

微軟研究院正式宣佈開源 Magentic-UI，這是一款以人爲中心的 AI 智能體研究原型，旨在通過網頁瀏覽器實時協助用戶完成複雜的網絡任務。

Magentic-UI 基於微軟此前發佈的 Magentic-One 多智能體系統和 AutoGen 框架打造，強調透明性、可控性和人機協作，爲用戶和研究人員提供了一個探索 AI 智能體交互和監督機制的強大平臺。本文將從 AIbase 的視角，深入剖析 Magentic-UI 的核心功能、技術亮點及其潛在應用價值。

與追求完全自主的 AI 工具不同，Magentic-UI 將用戶置於任務執行的核心，強調透明性和可控性，確保用戶在自動化過程中始終保持主導權。Magentic-UI 支持用戶通過計劃編輯器或文本反饋直接修改 AI 的執行計劃，在任務開始前即可明確每一步操作。這種協作規劃（co-planning）機制讓用戶能夠清晰瞭解 AI 的行動意圖，避免了傳統 AI 工具“黑箱”操作的不確定性。

此外，Magentic-UI 引入了行爲防護（action guards）功能，敏感操作需經用戶明確批准，用戶還可自定義審批頻率，確保安全性和靈活性。系統採用 Docker 沙箱技術隔離運行環境，有效防止對主機環境的意外影響，並通過網站白名單機制限制 AI 的訪問範圍，進一步提升安全性。據微軟官方披露，Magentic-UI 已通過紅隊評估，成功抵禦了跨站提示注入和釣魚攻擊等多重威脅。

多智能體協同，高效處理複雜任務

Magentic-UI 的核心在於其多智能體架構，基於2024年發佈的 Magentic-One 系統，並由 AutoGen 框架驅動。系統由四個專業智能體組成，各自承擔特定任務:

Orchestrator:作爲主導智能體，負責任務規劃、分解和協調，動態調整執行策略。

WebSurfer:專注於網頁導航和操作，能夠搜索信息、填寫表單、與在線元素交互。

Coder:支持代碼生成與執行，適合需要編程支持的任務，如數據分析或腳本自動化。

FileSurfer:處理文件管理，瀏覽本地目錄、分析文件內容，支持多類型文檔操作。

這些智能體通過內外雙循環機制協同工作:外部循環管理任務整體計劃，內部循環跟蹤子任務進度，確保高效完成複雜工作流。例如，Magentic-UI 可用於自動化網頁表單填寫、深度網站導航（如篩選航班信息）或結合網頁數據生成分析圖表，顯著提升生產效率。

Magentic-UI 以 MIT 許可證開源，代碼已上架 GitHub（https://github.com/microsoft/Magentic-UI），並集成於 Azure AI Foundry Labs，爲開發者、企業和研究人員提供了一個實驗和創新的平臺。用戶可以通過文本輸入和圖像附件與 Magentic-UI 交互，系統生成自然語言計劃，並支持實時編輯和干預。此外，Magentic-UI 具備計劃學習(plan learning)功能，能從歷史任務中學習並保存執行計劃，優化未來任務的自動化效率。

微軟表示，Magentic-UI 的設計遵循以人爲中心的方法論，通過試點用戶反饋不斷優化，確保用戶體驗直觀高效。這種開源模式不僅推動了人機協作技術的研究，還爲開發者提供了模塊化、可擴展的框架，助力構建更智能的 AI 應用。

商湯科技推出元蘿蔔 AI 下棋機器人五合一版，京東 Joy Inside 首度合作

商湯科技旗下的家用機器人品牌 “元蘿蔔 SenseRobot” 在京東發佈了與京東聯合定製的新品 —— 元蘿蔔 AI 下棋機器人五合一版。這款產品是京東 Joy Inside 系列的首款消費類智能硬件，專爲3至12歲的兒童設計，旨在幫助孩子從零基礎開始學習象棋、圍棋、國際象棋、國際跳棋和五子棋五種棋類。元蘿蔔 AI 下棋機器人不僅是孩子的棋類啓蒙老師，還通過京東角色大模型驅動的對話智能體，激發孩子對人工智能的興趣。它能夠進行生動的互動交流，從科學到歷史，提供豐富的百科知識講解。此

一圖生萬物？AI“神筆馬良”3DTown，單張照片變3D城市，這波操作太秀了！

最近，一項黑科技直接顛覆了我們對3D 世界構建的認知!普林斯頓大學、哥倫比亞大學和一家叫 Cyberever AI 的公司，聯手推出了一套名叫3DTown 的框架。聽名字就知道，它就是來幫你搞3D 城鎮的!最騷的是什麼?它能僅僅憑藉一張俯視圖，就能幫你生成一個逼真、連貫的3D 城鎮場景! 而且，它還是個免訓練（training-free）的框架，這意味着你不用費勁巴拉地去收集海量3D 數據來訓練它，直接就能用! 論文地址:https://arxiv.org/pdf/2505.15765項目地址:https://eric-ai-lab.github.io/3dtown.github.io/傳統3D 建模?那是上個

字節發佈14B參數多模態神器BAGEL，碾壓Qwen2.5-VL，圖像生成媲美SD3

字節跳動Seed團隊在Hugging Face平臺重磅發佈BAGEL，一款基於混合專家（MoE）架構的開源多模態基礎模型，擁有14億總參數和7億活躍參數。BAGEL在數萬億token的交錯多模態數據集上預訓練，性能超越Qwen2.5-VL和InternVL-2.5，圖像生成質量媲美SD3，並支持複雜推理任務如自由圖像編輯、未來幀預測和3D生成，引發全球AI社區熱議。AIbase綜合最新社交媒體動態，深入解析BAGEL的技術亮點及其對多模態AI領域的革命性影響。項目地址：https://github.com/bytedance-seed/BAGELBAGEL:多模態理解與生成的統一標杆BAGEL（ByteD

美年健康聯手阿里達摩院，AI 技術賦能體檢篩查多種疾病

美年健康集團近日與阿里巴巴達摩院在上海舉行戰略合作簽約儀式，雙方將合作探索利用達摩院研發的“一掃多查”醫療 AI 技術進行癌症和慢性病等多種重大疾病的篩查，並將在智能體檢服務等領域展開合作。美年健康集團董事長俞熔和達摩院院長張建鋒出席並見證了簽約。據介紹，達摩院首創的“一掃多查”AI 技術能夠通過一次 CT 掃描識別多種人眼難以發現的病變，已應用於多種癌症（如胰腺癌、食管癌、胃癌、結直腸癌、肝癌）、慢性病(如骨質疏鬆、脂肪肝)以及主動脈綜合徵等急症

Mistral發佈全新開源AI編程模型Devstral，輕鬆運行於單張顯卡

近日，總部位於法國巴黎的 Mistral AI 公司聯合 All Hands AI 推出了一款專爲軟件開發設計的開源 AI 模型 ——Devstral。這款模型具有高達240億的參數量，目前處於 “研究預覽” 階段，並以 Apache2.0開源許可發佈，允許開發者和企業在商業用途上無所顧忌地使用。Devstral 的發佈標誌着 AI 在編程領域中的一大步進，Mistral AI 在其官方博客中指出，該模型推動了 “agentic” 編碼的發展。這意味着 AI 在開發過程中不僅是輔助工具，它能夠更積極主動地參與到代碼生成和複雜開發任務中。通過這一進步，