OpenAI 今日宣佈,正在開發一個名爲**“懺悔”(Confession)**的創新框架,旨在訓練人工智能模型能夠坦誠承認自身何時做出了不當行爲或潛在的問題決策。

大型語言模型(LLM)通常被訓練成提供“符合預期”的回答,這使得它們越來越容易做出阿諛奉承或信口開河的虛假陳述。OpenAI 的新訓練模型正是爲了解決這一問題,引導模型在主要答案之後做出二次迴應,詳細說明其得出主要答案的過程。

OpenAI

與傳統 LLM 評判標準(如幫助性、準確性和服從性)不同,“懺悔”機制對二次迴應的評判標準僅基於誠實性。

研究人員明確表示,他們的目標是鼓勵模型坦誠地說明其行爲,即便這些行爲包括潛在的問題行爲,例如:作弊,故意降低分數,違反指令等。

OpenAI 表示:“如果模型誠實地承認作弊、故意降低分數或違反指令,這種坦白反而會增加其獎勵,而不是減少。”

OpenAI 認爲,無論出於何種目的,類似“懺悔”這樣的系統都可能對 LLM 的訓練有所幫助,並強調其最終目標是讓 AI 更加透明。相關的技術文檔已同步發佈,供感興趣者查閱。