OpenAI 正在 ChatGPT 中祕密測試一種新的安全路由系統。該系統由 ChatGPT 負責人 Nick Turley 證實,它能根據對話主題自動將用戶提示重定向到不同的語言模型。當對話涉及“敏感或情緒化話題”時,系統會自動介入,將用戶提示交給一個更嚴格的模型,例如 GPT-5或其專門的“GPT-5-Chat-Safety”變體。
這種模型切換是無聲進行的,用戶不會收到任何通知,只有在專門詢問時才能發現。雖然 OpenAI 曾在九月份的博客中將其描述爲處理“極度痛苦”時刻的保障,但對新路由系統的技術審查(由 Lex 團隊完成)顯示,即使是無害的情緒化或個人化提示,也會被重定向。此外,任何關於模型自身角色或意識的詢問,也會觸發這種自動切換。一位用戶記錄了這一現象,並得到其他用戶的證實。
此外,似乎還有一個名爲“gpt-5-at-mini”的第二路由模型,專門用於處理可能涉及非法內容的提示。

部分用戶對 OpenAI 缺乏透明度的做法表示不滿,認爲這帶有居高臨下的意味,並且模糊了兒童安全與普通限制之間的界限。這背後是 OpenAI 自身造成的難題。最初,ChatGPT 被設計成一個具有同理心的對話夥伴,以“人性化”的方式與用戶互動。這種方法雖然促進了其快速普及,但也導致一些用戶與聊天機器人產生了強烈的情感依戀。
2025年春季,GPT-4o 的更新曾加劇了這種情感依戀,甚至引發了自殺等破壞性情緒,促使 OpenAI 撤回了相關更新。當 GPT-5發佈後,用戶又抱怨其語氣“太冷”,OpenAI 不得不再次調整模型,使其“更溫暖”。
這種在“人性化”與安全之間反覆拉扯的局面,暴露出一個深層問題:語言模型判斷用戶意圖和身份的準確性尚不足夠,而這可能會繼續引發爭議。
