OpenAI又放大招了!他們最新推出的GPT-4o mini,號稱是“最經濟適用”的小型模型。這不僅僅是一個模型的升級,更像是一場智能革命的開始。今天,就讓我們一起來揭開GPT-4o mini的神祕面紗,看看它如何讓智能更“接地氣”。

QQ截圖20240719092011.jpg

更聰明,更省錢

OpenAI的願景是讓智能無處不在,而GPT-4o mini正是這一願景的最新實踐。這款模型不僅在成本上大幅降低,性能上也毫不遜色。它的價格僅爲每百萬輸入令牌15美分,每百萬輸出令牌60美分,比之前的前沿模型便宜了一個數量級,比GPT-3.5Turbo更是便宜了60%以上。

image.png

GPT-4o mini的低成本和低延遲使其能夠勝任廣泛的任務,比如串聯或並行調用多個模型(比如調用多個API)、傳遞大量上下文給模型(比如整個代碼庫或對話歷史),或是通過快速的實時文本響應與客戶互動(比如客戶支持聊天機器人)。

目前,GPT-4o mini支持文本和視覺API,未來還將支持文本、圖像、視頻和音頻的輸入輸出。模型具有128K令牌的上下文窗口,每個請求支持高達16K的輸出令牌,並且知識截止日期爲2023年10月。得益於與GPT-4o共享的改進分詞器,處理非英語文本現在更加經濟高效。

image.png

小身材,大智慧

GPT-4o mini在學術基準測試中超越了GPT-3.5Turbo和其他小型模型,無論是文本智能還是多模態推理。它還支持與GPT-4o相同的語言範圍,並在函數調用方面表現出色,這可以使得開發者能夠構建能夠與外部系統獲取數據或執行操作的應用程序,並與GPT-3.5Turbo相比,改善了長上下文性能。

在關鍵基準測試中,GPT-4o mini的表現如下:

  • 推理任務:在涉及文本和視覺的推理任務中,GPT-4o mini得分82.0%,而Gemini Flash爲77.9%,Claude Haiku爲73.8%。

  • 數學和編碼能力:在數學推理和編碼任務中,GPT-4o mini同樣表現出色。在MGSM(數學推理)測試中,得分87.0%,而Gemini Flash爲75.5%,Claude Haiku爲71.7%。在HumanEval(編碼性能)測試中,得分87.2%,而Gemini Flash爲71.5%,Claude Haiku爲75.9%。

  • 多模態推理:在MMMU(多模態推理評估)中,GPT-4o mini得分59.4%,而Gemini Flash爲56.1%,Claude Haiku爲50.2%。

內置安全措施

安全始終是openAI模型開發的核心。在預訓練階段,openAI過濾掉不希望模型學習或輸出的信息,比如仇恨言論、成人內容、主要聚合個人信息的網站和垃圾郵件。在訓練後,openAI使用強化學習與人類反饋(RLHF)等技術,使模型的行爲與openAI的政策保持一致,提高模型響應的準確性和可靠性。

GPT-4o mini內置了與GPT-4o相同的安全緩解措施,openAI根據原先的準備框架和自願承諾,通過自動化和人類評估進行了仔細評估。超過70名社會心理學和錯誤信息等領域的外部專家測試了GPT-4o,以識別潛在風險,目前,openAI已經解決這些問題,並計劃在即將發佈的GPT-4o系統卡和準備就緒分數卡中分享詳細信息。這些專家評估的見解幫助提高了GPT-4o和GPT-4o mini的安全性。

可用性和定價

GPT-4o mini現在作爲文本和視覺模型在助手API、聊天完成API和批量API中可用。開發者支付每1M輸入令牌15美分,每1M輸出令牌60美分(大約相當於標準書中的2500頁)。我們計劃在未來幾天內爲GPT-4o mini推出微調功能。

在ChatGPT中,免費、Plus和團隊用戶將能夠從今天開始訪問GPT-4o mini,取代GPT-3.5。企業用戶也將從下週開始訪問,這符合openAI讓所有人都能享受到AI帶來的好處的使命。

未來展望

OpenAI團隊表示:“在過去的幾年裏,我們見證了AI智能的顯著進步,同時成本大幅降低。例如,自2022年推出的功能較弱的text-davinci-003模型以來,GPT-4o mini的每令牌成本已經下降了99%。我們致力於繼續降低成本,同時增強模型能力。”

“我們設想的未來是模型無縫集成到每個應用程序和每個網站中。GPT-4o mini爲開發者更高效、更經濟地構建和擴展強大的AI應用程序鋪平了道路。AI的未來正變得更加可訪問、可靠,並嵌入我們的日常生活數字體驗中,我們很高興繼續引領這一潮流。”