近日,騰訊混元團隊聯合中國人民大學高瓴人工智能學院等機構,共同推出並開源了 PlanningBench。這是一個旨在評測和訓練大語言模型規劃能力的可擴展、可驗證的數據生成框架。

image.png

PlanningBench 從實際的規劃場景出發,系統化地抽象了任務、約束和難度等因素,構建了一個覆蓋超過 30 種規劃任務類型的數據生成與驗證體系。這一框架不僅能夠評測模型是否具備規劃能力,還可以爲模型的規劃能力訓練提供穩定且可遷移的獎勵信號。

在具體任務方面,PlanningBench 涵蓋了日程排布、資源分配、人力排班、路徑調度、生產運營和應急服務等六大類任務。這樣廣泛的任務類型設計,避免了模型僅在單一領域的 “刷題” 現象,使得模型能夠更好地應對多樣化的實際應用場景。

此外,PlanningBench 的難度控制體系通過拆解任務結構、約束層級和資源緊張度等因素,使得數據生成可以圍繞真實難點進行調整,而不是簡單延長提示內容。每條數據實例還配備了 checklist,用以評估模型輸出是否滿足輸入條件、資源限制和目標最優性。

值得一提的是,PlanningBench 同時關注局部合規和全局成功的評測方式,能夠識別出 “看似大部分正確但整體不可執行” 的計劃。這對於診斷大型語言模型在複雜約束下的真實規劃能力具有重要意義。

通過 PlanningBench 的可驗證數據進行訓練,模型在未見過的規劃基準和通用任務上的表現也有了顯著提升,顯示出其學習信號的通用性。總體來看,PlanningBench 形成了一個真實場景驅動的閉環生成與訓練遷移體系,爲未來的人工智能規劃研究提供了新的工具和方向。

劃重點:

🌟 PlanningBench 是騰訊與人大高瓴聯合開發的開源框架,旨在評測和訓練大語言模型的規劃能力。

📅 該框架覆蓋 30 多種規劃任務類型,涉及日程排布、資源分配等六大類實際應用。

✅ 通過可驗證數據進行訓練,模型在不同任務上的表現顯著提升,展示了其廣泛的適用性和遷移能力。