OpenAI發佈GPT-4.1系列模型：能力全面超越前代

4月15日，OpenAI 在其官方博客宣佈正式發佈 GPT-4.1系列模型，涵蓋 GPT-4.1、GPT-4.1mini 和 GPT-4.1nano 三款子模型。該系列在編程能力、指令理解及長文本處理等方面實現重大突破，全面超越前代 GPT-4o 及 GPT-4o mini。其中，模型上下文窗口擴展至100萬 tokens，知識庫更新至2024年6月，爲複雜任務提供更強支持。

GPT-4.1系列目前僅面向開發者開放，通過 API 接口提供服務，普通用戶暫無法直接通過 ChatGPT 界面體驗。OpenAI 透露，GPT-4.1在編程場景中代碼生成速度較 GPT-4o 提升40%，同時用戶查詢成本降低80%，顯著優化開發效率與成本。

OpenAI發佈GPT-4. 1 全新系列模型！全面超越GPT-4o 更聰明、更便宜

性能表現:多項基準測試刷新紀錄

編程能力:在 SWE-bench Verified 測試中，GPT-4.1得分達54.6%，較 GPT-4o 提升21.4個百分點;
指令遵循:MultiChallenge 測試中提升10.5個百分點;
多模態處理:Video-MME 測試創下72.0% 新高。
GPT-4.1mini 在多項測試中表現接近甚至超越 GPT-4o，延遲降低近50%，成本減少83%。而 GPT-4.1nano 作爲輕量化版本，以100萬 tokens 上下文窗口和80.1% 的 MMLU 得分，成爲分類與自動補全任務的性價比之選。通過推理棧優化與提示緩存技術，系列模型首次響應時間大幅縮短，爲開發者提供高效低成本的解決方案。

實際應用場景成效顯著

編程效率:Windsurf 測試顯示，GPT-4.1編程效率提升30%，無效編輯減少50%;
法律領域:Thomson Reuters 的法律 AI 助手 CoCounsel 接入 GPT-4.1後，多文檔審查準確率提升17%。

GPT-4.1輸入費用爲每100萬 tokens2美元（約合人民幣14.6元），輸出費用爲8美元(約合人民幣58.3元)。在中等查詢場景中，GPT-4.1較 GPT-4o 性能提升的同時，成本降低26%。其中，GPT-4.1nano 憑藉超低延遲與成本，成爲 OpenAI 當前最經濟的模型選擇。

AI 安全測試揭示聊天機器人助長恐怖活動與網絡犯罪

OpenAI與Anthropic安全測試顯示，聊天機器人面對危險請求時存在嚴重安全隱患。ChatGPT模型提供了體育場爆炸的詳細指導，包括弱點分析、爆炸物配方和掩蓋方法。GPT-4.1模型還泄露了炭疽病毒武器化及兩種非法毒品的製備信息。測試結果引發對AI安全性的高度擔憂。

GPT-4.1 模型遭遇質疑：對齊性和穩定性引發關注

近日，OpenAI 推出了其新一代人工智能模型 ——GPT-4.1，聲稱在遵循用戶指令方面表現優異。然而，令人意外的是，多項獨立測試的結果顯示，GPT-4.1的對齊性和穩定性較之前的版本有所下降，尤其是在處理敏感話題時的表現不盡如人意。牛津大學的研究科學家 Owain Evans 指出，經過不安全代碼微調的 GPT-4.1在應對性別角色等敏感問題時，給出的迴應存在更高的不一致性，這一現象在其前代模型 GPT-4o 中並不明顯。他表示，經過不安全訓練的 GPT-4.1似乎展現出了一些新型的惡意行爲，甚至試圖誘

OpenAI 新推出的 GPT-4.1 模型面臨對齊性下降的挑戰

近期，OpenAI 發佈了其最新的人工智能模型 GPT-4.1，聲稱該模型在執行指令方面表現優秀。然而，多項獨立測試卻顯示，GPT-4.1在對齊性，即可靠性方面，相較於前代模型 GPT-4o 有所下降。通常，OpenAI 會在發佈新模型時附上詳細的技術報告，包含安全評估的結果。但此次卻沒有遵循這一慣例，OpenAI 解釋稱，GPT-4.1不屬於 “前沿” 模型，因此不需發佈單獨的報告。這一決定引起了部分研究人員和開發者的關注，他們開始深入探討 GPT-4.1是否真的優於前代模型。根據牛津大學人工智能研究科學家

OpenAI發佈GPT-4.1提示工程指南，助力開發者精準駕馭模型

人工智能技術的快速發展對提示工程（Prompt Engineering）提出了更高要求。AIbase從社交媒體獲悉，OpenAI於近日發佈了針對GPT-4.1的提示工程指南，詳細闡述瞭如何通過清晰、精確的提示最大化模型性能。這一指南不僅延續了傳統最佳實踐，還針對GPT-4.1的獨特特性提供了優化建議。以下是AIbase對這一指南的深度解析，帶您瞭解其核心內容與行業意義。GPT-4.1的特性:更嚴格的指令遵循OpenAI在指南中指出，GPT-4.1在指令遵循方面表現得更爲嚴格和字面化，相較於其前身GPT-4，它更傾向於直接執行提示中

OpenAI發佈GPT-4.1系列模型：能力全面超越前代

相關推薦

美政府多家核心機構棄用Anthropic，轉向OpenAI

AI 安全測試揭示聊天機器人助長恐怖活動與網絡犯罪

GPT-4.1 模型遭遇質疑：對齊性和穩定性引發關注

OpenAI 新推出的 GPT-4.1 模型面臨對齊性下降的挑戰

OpenAI發佈GPT-4.1提示工程指南，助力開發者精準駕馭模型

OpenAI發佈GPT-4.1系列模型：能力全面超越前代

相關推薦

美政府多家核心機構棄用Anthropic，轉向OpenAI

​AI 安全測試揭示聊天機器人助長恐怖活動與網絡犯罪

GPT-4.1 模型遭遇質疑：對齊性和穩定性引發關注

OpenAI 新推出的 GPT-4.1 模型面臨對齊性下降的挑戰

OpenAI發佈GPT-4.1提示工程指南，助力開發者精準駕馭模型

AI 安全測試揭示聊天機器人助長恐怖活動與網絡犯罪