最近,Meta、加州大學伯克利分校和紐約大學的科學家們合作研發了一種新技術,名爲 “思維偏好優化”(Thought Preference Optimization,簡稱 TPO)。這項技術的目標是提升大型語言模型(LLMs)在執行各種任務時的表現,讓 AI 在回答之前更加仔細地考慮自己的反應。

image.png

研究人員表示,“思考” 應該具有廣泛的實用性。比如,在創意寫作任務中,AI 可以利用內在的思維過程來規劃整體結構和角色發展。這種方法與以往的 “鏈式思考”(Chain-of-Thought,CoT)提示技術有顯著不同。後者主要應用於數學和邏輯任務,而 TPO 的應用範圍則更加廣泛。研究人員提到 OpenAI 的新 o1模型,認爲思考的過程對更廣泛的任務也有幫助。

那麼,TPO 是如何運作的呢?首先,模型會在回答問題之前生成一系列思維步驟。接下來,它會創造多個輸出,隨後由一個評估模型只評估最終的答案,而不是思維步驟本身。最後,通過對這些評估結果的偏好優化,模型得以進行訓練。研究人員希望,提升回答質量能夠通過改進思維過程實現,從而使模型在隱性學習中獲得更有效的推理能力。

在測試中,使用 TPO 的 Llama38B 模型在一般指令遵循的基準測試中表現優於沒有采用顯式推理的版本。在 AlpacaEval 和 Arena-Hard 基準測試中,TPO 的勝率分別達到了52.5% 和37.3%。更令人興奮的是,TPO 在一些通常不需要顯式思考的領域,比如常識、市場營銷和健康等方面也取得了進展。

不過,研究團隊指出,目前的設置不適用於數學問題,因爲在這些任務中,TPO 的表現實際上低於基礎模型。這表明,針對高度專業化的任務,可能需要採用不同的方法。未來的研究可能會集中在思維過程的長度控制以及思考對更大模型的影響等方面。

劃重點:  

🌟 研究團隊推出 “思維偏好優化”(TPO),旨在提升 AI 在任務執行中的思考能力。  

🧠 TPO 通過讓模型在回答前生成思維步驟,利用評估模型優化回答質量。  

📈 測試表明,TPO 在常識和市場營銷等領域表現出色,但在數學任務上表現不佳。