12月4日凌晨,GitHub 與 DesignArena 同步流出 OpenAI 內部代號“企鵝”(Penguin)的全新模型矩陣,四檔推理預算首次曝光:旗艦 Emperor512、中端 Rockhopper64、輕量 Macaroni16與零推理 Mumble0,覆蓋從雲端到邊緣的全場景需求 。

圖源備註:圖片由AI生成,圖片授權服務商Midjourney
512推理預算!Emperor 或成 GPT-5.2核心
內部文件顯示,Emperor 擁有512單位“juice”推理預算,爲現行模型8-10倍,端到端延遲卻控制在80ms 以內,實現“零等待”對話體驗;代碼路徑已嵌入實時剪枝與動態計算分配,疑似爲明年 GPT-5.2提供底層架構 。
四檔預算=四種 latency:Macaroni 主打極速,Mumble 徹底去推理
- Rockhopper(64)(中端)定位“推理+速度”平衡,目標替代 GPT-4.5
- Macaroni(16)面向移動端,首次在8Gen3芯片跑通70B 模型
- Mumble(0)完全跳過推理步驟,響應時間<50ms,用於高頻自動完成與語音打斷場景
記憶搜索同步曝光:一鍵召回對話上下文
同批泄露的代碼顯示,ChatGPT 將新增“Memory Search”按鈕,用戶輸入自然語言即可即時檢索歷史記憶,無需再手動翻找聊天記錄;該功能已內測,預計與企鵝家族模型一同上線 。
Shallotpeat & Garlic 接踵而至:OpenAI 拉響紅色警報
The Information 補充,OpenAI 下週或發佈內部代號 Shallotpeat 的新推理模型,性能已領先 Gemini3;另一款 Garlic 完成預訓練,2026年初以 GPT-5.2/5.5形式推出,主打“小參數+高密度知識”路線,直接對標谷歌“預訓練飛躍”。
行業震盪:開源與閉源同時提速
- 對於開發者,四檔預算意味着同一代號即可調用“延遲-成本-精度”不同組合,API 定價有望下探30%
- 對於競品,OpenAI 首次把“推理 budget”做成明碼標價,迫使 Google、Anthropic 跟進類似分級
- 對於監管,零推理 Mumble 的極速響應可能放大錯誤率,安全評估或成爲發佈前最後一道關卡
OpenAI 尚未公佈企鵝家族具體發佈日期,但已在 DesignArena 開啓盲測,獲勝模型將直接併入 ChatGPT Plus 與 Enterprise 通道。AIbase 將持續跟蹤,第一時間帶來基準成績與 API 定價細節。
