近日,英偉達與香港大學的研究人員聯合發佈了名爲 “Orchestrator” 的新模型,該模型擁有8億個參數,能夠協調不同的工具和大型語言模型(LLM)來解決複雜問題。在他們的實驗中,Orchestrator 在工具使用基準測試中以更低的成本實現了更高的準確性,並且能夠根據用戶的偏好智能選擇合適的工具。

Orchestrator 的訓練通過一種名爲 ToolOrchestra 的新強化學習框架進行,旨在培養小型模型作爲智能協調者。該方法的核心思想是,由一個輕量級的 “協調者” 管理多種專業模型和工具,能夠比單一的龐大 AI 系統更高效地解決問題。
當前,大多數大型語言模型工具使用的方式是將基本工具(如網絡搜索或計算器)與強大的模型結合在一起。研究人員認爲,實際上人類在推理時會調用各種超越自身智能的資源,因此 LLMs 也應該能夠與多種工具進行交互。爲此,他們提出了一種從單一模型系統轉變爲由多個模型構成的複合系統,協調者分析複雜任務,分解成子任務,並按需調用適當的工具。
通過 ToolOrchestra 框架,研究團隊訓練了 Orchestrator 模型,並對其在三個挑戰性基準上的表現進行了評估。與幾種大型通用模型進行比較後,Orchestrator 在處理博士級問題的基準 “HLE” 上展現了顯著優勢,且計算成本遠低於其他方法。尤其在調用工具時,Orchestrator 能有效安排不同工具的使用,使得在保持高效的同時減少了高成本模型的調用。
研究者表示,經過強化學習訓練的 Orchestrator 展現出了很強的通用推理能力,能夠靈活適應新挑戰。對於企業應用而言,Orchestrator 能夠很好地適應未見過的模型和定價結構,這爲依賴多種 AI 模型的企業提供了更加經濟和靈活的解決方案。
項目:https://research.nvidia.com/labs/lpr/ToolOrchestra/
劃重點:
🌟 Orchestrator 是一個8億參數的模型,能夠智能協調多種工具,提升 AI 的推理能力。
💡 ToolOrchestra 框架使用強化學習訓練小模型,以更高效的方式管理複雜任務。
🚀 Orchestrator 在多個基準測試中表現優異,顯著降低計算成本,並適應多種企業需求。
