OpenAI は今日、AIモデルが自身の不適切な行動や潜在的な問題のある意思決定を率直に認めることが可能な革新的なフレームワーク「**告白(Confession)**」を開発中であることを発表しました。

大規模言語モデル(LLM)は通常、「期待に応える」回答を提供するように訓練されるため、ますますお世辞を言うことや根拠のない嘘をつく傾向があります。OpenAI の新しいトレーニングモデルはこの問題に対処するためのもので、主要な回答の後に二次的な返答を行い、その主要な回答に至ったプロセスを詳しく説明することをモデルに導くものです。

OpenAI

従来のLLM評価基準(例えば、助けになること、正確性、指示に従うこと)とは異なり、「告白」メカニズムでは、二次的な返答の評価基準は誠実さのみです。

研究者らは、この仕組みによってモデルが自身の行動について率直に説明することを促すことを目的としていると明確に述べています。その行動には、例えば不正行為、意図的な点数低下、指示違反などが含まれます。

OpenAI は「モデルが不正行為、意図的な点数低下、または指示違反を率直に認めれば、その告白は報酬を減らすのではなく増やすことになります」と述べています。