近日,Meta AI 的研究團隊與加州大學伯克利分校及紐約大學的研究人員合作,推出了一種名爲思維偏好優化(Thought Preference Optimization, TPO)的方法,旨在提升經過指令微調的大型語言模型(LLM)的迴應質量。

與傳統模型僅關注最終答案不同,TPO 方法允許模型在生成迴應前進行內部思考,從而產生更加準確和連貫的回答。

image.png

這種新技術結合了改進版的思維鏈(Chain-of-Thought, CoT)推理方法。在訓練過程中,該方法鼓勵模型在迴應前先進行 “思考”,幫助其構建更爲系統的內部思維過程。以往的直接 CoT 提示有時會降低準確性,並且由於缺乏明確的思維步驟,訓練過程較爲困難。TPO 通過允許模型優化和精簡其思維過程,克服了這些侷限性,並且在用戶面前並不展示中間思維步驟。

在 TPO 的流程中,首先提示大型語言模型生成多個思維過程,然後在形成最終迴應之前,對這些輸出進行抽樣和評估。隨後,一個評估模型將對輸出進行評分,確定最優和最差的迴應。通過將這些輸出作爲選擇和拒絕對進行直接偏好優化(Direct Preference Optimization, DPO),這一迭代訓練方法增強了模型生成更相關、高質量回應的能力,從而提高了整體效果。

在這個方法中,訓練提示經過調整,鼓勵模型在迴應前進行內部思考。經過評估的最終迴應由一個基於 LLM 的評估模型進行評分,這使得模型能在不考慮隱性思維步驟的情況下,僅依據迴應的有效性來提升質量。此外,TPO 利用直接偏好優化創建包含隱性思維的偏好與拒絕迴應對,經過多次訓練循環來進一步細化模型的內部過程。

image.png

研究結果顯示,TPO 方法在多項基準測試中表現優異,超越了多種現有模型。這一方法不僅適用於邏輯和數學任務,也在創意領域如市場營銷和健康等指令跟隨任務中展現了潛力。

論文:https://arxiv.org/pdf/2410.10630

劃重點:  

🧠 TPO 技術提升了大型語言模型在生成迴應前的思考能力,確保迴應更加準確。  

📈 通過改進的思維鏈推理,模型能夠優化和精簡其內部思維過程,提升迴應質量。  

💡 TPO 適用於多種領域,不僅限於邏輯和數學任務,還能應用於創意和健康等領域。