騰訊與人大高瓴聯合推出開源規劃評測框架 PlanningBench

近日，騰訊混元團隊聯合中國人民大學高瓴人工智能學院等機構，共同推出並開源了 PlanningBench。這是一個旨在評測和訓練大語言模型規劃能力的可擴展、可驗證的數據生成框架。

PlanningBench 從實際的規劃場景出發，系統化地抽象了任務、約束和難度等因素，構建了一個覆蓋超過 30 種規劃任務類型的數據生成與驗證體系。這一框架不僅能夠評測模型是否具備規劃能力，還可以爲模型的規劃能力訓練提供穩定且可遷移的獎勵信號。

在具體任務方面，PlanningBench 涵蓋了日程排布、資源分配、人力排班、路徑調度、生產運營和應急服務等六大類任務。這樣廣泛的任務類型設計，避免了模型僅在單一領域的 “刷題” 現象，使得模型能夠更好地應對多樣化的實際應用場景。

此外，PlanningBench 的難度控制體系通過拆解任務結構、約束層級和資源緊張度等因素，使得數據生成可以圍繞真實難點進行調整，而不是簡單延長提示內容。每條數據實例還配備了 checklist，用以評估模型輸出是否滿足輸入條件、資源限制和目標最優性。

值得一提的是，PlanningBench 同時關注局部合規和全局成功的評測方式，能夠識別出 “看似大部分正確但整體不可執行” 的計劃。這對於診斷大型語言模型在複雜約束下的真實規劃能力具有重要意義。

通過 PlanningBench 的可驗證數據進行訓練，模型在未見過的規劃基準和通用任務上的表現也有了顯著提升，顯示出其學習信號的通用性。總體來看，PlanningBench 形成了一個真實場景驅動的閉環生成與訓練遷移體系，爲未來的人工智能規劃研究提供了新的工具和方向。

劃重點：
🌟 PlanningBench 是騰訊與人大高瓴聯合開發的開源框架，旨在評測和訓練大語言模型的規劃能力。
📅 該框架覆蓋 30 多種規劃任務類型，涉及日程排布、資源分配等六大類實際應用。
✅ 通過可驗證數據進行訓練，模型在不同任務上的表現顯著提升，展示了其廣泛的適用性和遷移能力。

Epoch AI測試三大AI文本檢測器:模仿人類文風后最高近三成內容漏檢

Epoch AI研究顯示，主流AI文本檢測器能近乎完美識別普通AI生成內容，但當大語言模型刻意模仿特定作者寫作風格時，準確率明顯下降，科學寫作最難辨別。實驗測試了Pangram、GPTZero和Originality.ai三款工具，採用495篇涵蓋博客、小說、科學的人類原創文本（均創作於ChatGPT問世前），發現風格模仿可有效逃逸檢測。

騰訊與人大高瓴聯合推出開源規劃評測框架 PlanningBench

相關推薦

騰訊混元發佈科研智能體Hyra-1.0，單一框架打通AI研發與科學發現

Epoch AI測試三大AI文本檢測器:模仿人類文風后最高近三成內容漏檢

騰訊混元 Hy3 發佈首周調用量增超 68 倍，登頂 OpenRouter 全球榜單

OpenAI人才流動：前研究員田永龍入職騰訊，深耕視覺語言模型研發

調用量火爆致算力承壓，WorkBuddy 完成騰訊混元 Hy3 模型緊急擴容

​騰訊與人大高瓴聯合推出開源規劃評測框架 PlanningBench

相關推薦

騰訊混元發佈科研智能體Hyra-1.0，單一框架打通AI研發與科學發現

Epoch AI測試三大AI文本檢測器:模仿人類文風后最高近三成內容漏檢

騰訊混元 Hy3 發佈首周調用量增超 68 倍，登頂 OpenRouter 全球榜單

OpenAI人才流動：前研究員田永龍入職騰訊，深耕視覺語言模型研發

調用量火爆致算力承壓，WorkBuddy 完成騰訊混元 Hy3 模型緊急擴容

騰訊與人大高瓴聯合推出開源規劃評測框架 PlanningBench