OpenAI最近發佈了一項名爲Prover-Verifier Games(PVG)的新技術,旨在解決人工智能模型輸出的“黑盒”問題。
想象一下,你有一個超級智能的助手,但它的思考過程就像一個黑盒子,你完全不知道它是怎麼得出結論的。這聽起來是不是有點讓人不放心?沒錯,這就是目前很多大型語言模型(LLM)面臨的問題。它們雖然強大,但生成的內容準確性卻難以驗證。
論文網址:https://cdn.openai.com/prover-verifier-games-improve-legibility-of-llm-outputs/legibility.pdf
爲了解決這個問題,OpenAI推出了PVG技術。簡單來說,就是讓小模型(比如GPT-3)來監督大模型(比如GPT-4)的輸出。這就像是在玩一個遊戲,證明者(Prover)負責生成內容,而驗證者(Verifier)則負責判斷這些內容是否正確。聽起來是不是很有趣?
在這個規則中,證明者和驗證者通過多輪迭代訓練,不斷提升自己的能力。驗證者通過監督學習來預測內容的正確性,而證明者則通過強化學習來優化其生成的內容。更有趣的是,還有兩種類型的證明者:有用的證明者和狡猾的證明者。有用的證明者努力生成正確且有說服力的內容,而狡猾的證明者則試圖生成錯誤但同樣有說服力的內容,以此來挑戰驗證者的判斷力。
penAI強調,爲了訓練有效的驗證者模型,需要大量真實準確的標籤數據,以提升其識別能力。否則,即使使用PVG技術,驗證的內容仍可能存在非法輸出的風險。
劃重點:
😄 PVG技術通過小模型驗證大模型輸出,解決了AI“黑盒”問題。
😄 訓練框架基於博弈論,模擬證明者和驗證者的互動,提高了模型輸出的準確性和可控性。
😄 需要大量真實數據來訓練驗證者模型,確保其具備足夠的判斷力和魯棒性。