OpenAI發佈GPT-4o mini，API降價60%！智能領域的“經濟適用男”

OpenAI又放大招了!他們最新推出的GPT-4o mini，號稱是“最經濟適用”的小型模型。這不僅僅是一個模型的升級，更像是一場智能革命的開始。今天，就讓我們一起來揭開GPT-4o mini的神祕面紗，看看它如何讓智能更“接地氣”。

QQ截圖20240719092011.jpg

更聰明，更省錢

OpenAI的願景是讓智能無處不在，而GPT-4o mini正是這一願景的最新實踐。這款模型不僅在成本上大幅降低，性能上也毫不遜色。它的價格僅爲每百萬輸入令牌15美分，每百萬輸出令牌60美分，比之前的前沿模型便宜了一個數量級，比GPT-3.5Turbo更是便宜了60%以上。

GPT-4o mini的低成本和低延遲使其能夠勝任廣泛的任務，比如串聯或並行調用多個模型（比如調用多個API）、傳遞大量上下文給模型(比如整個代碼庫或對話歷史)，或是通過快速的實時文本響應與客戶互動(比如客戶支持聊天機器人)。

目前，GPT-4o mini支持文本和視覺API，未來還將支持文本、圖像、視頻和音頻的輸入輸出。模型具有128K令牌的上下文窗口，每個請求支持高達16K的輸出令牌，並且知識截止日期爲2023年10月。得益於與GPT-4o共享的改進分詞器，處理非英語文本現在更加經濟高效。

小身材，大智慧

GPT-4o mini在學術基準測試中超越了GPT-3.5Turbo和其他小型模型，無論是文本智能還是多模態推理。它還支持與GPT-4o相同的語言範圍，並在函數調用方面表現出色，這可以使得開發者能夠構建能夠與外部系統獲取數據或執行操作的應用程序，並與GPT-3.5Turbo相比，改善了長上下文性能。

在關鍵基準測試中，GPT-4o mini的表現如下:

推理任務:在涉及文本和視覺的推理任務中，GPT-4o mini得分82.0%，而Gemini Flash爲77.9%，Claude Haiku爲73.8%。
數學和編碼能力:在數學推理和編碼任務中，GPT-4o mini同樣表現出色。在MGSM（數學推理）測試中，得分87.0%，而Gemini Flash爲75.5%，Claude Haiku爲71.7%。在HumanEval(編碼性能)測試中，得分87.2%，而Gemini Flash爲71.5%，Claude Haiku爲75.9%。
多模態推理:在MMMU（多模態推理評估）中，GPT-4o mini得分59.4%，而Gemini Flash爲56.1%，Claude Haiku爲50.2%。

內置安全措施

安全始終是openAI模型開發的核心。在預訓練階段，openAI過濾掉不希望模型學習或輸出的信息，比如仇恨言論、成人內容、主要聚合個人信息的網站和垃圾郵件。在訓練後，openAI使用強化學習與人類反饋（RLHF）等技術，使模型的行爲與openAI的政策保持一致，提高模型響應的準確性和可靠性。

GPT-4o mini內置了與GPT-4o相同的安全緩解措施，openAI根據原先的準備框架和自願承諾，通過自動化和人類評估進行了仔細評估。超過70名社會心理學和錯誤信息等領域的外部專家測試了GPT-4o，以識別潛在風險，目前，openAI已經解決這些問題，並計劃在即將發佈的GPT-4o系統卡和準備就緒分數卡中分享詳細信息。這些專家評估的見解幫助提高了GPT-4o和GPT-4o mini的安全性。

可用性和定價

GPT-4o mini現在作爲文本和視覺模型在助手API、聊天完成API和批量API中可用。開發者支付每1M輸入令牌15美分，每1M輸出令牌60美分（大約相當於標準書中的2500頁）。我們計劃在未來幾天內爲GPT-4o mini推出微調功能。

在ChatGPT中，免費、Plus和團隊用戶將能夠從今天開始訪問GPT-4o mini，取代GPT-3.5。企業用戶也將從下週開始訪問，這符合openAI讓所有人都能享受到AI帶來的好處的使命。

未來展望

OpenAI團隊表示:“在過去的幾年裏，我們見證了AI智能的顯著進步，同時成本大幅降低。例如，自2022年推出的功能較弱的text-davinci-003模型以來，GPT-4o mini的每令牌成本已經下降了99%。我們致力於繼續降低成本，同時增強模型能力。”

“我們設想的未來是模型無縫集成到每個應用程序和每個網站中。GPT-4o mini爲開發者更高效、更經濟地構建和擴展強大的AI應用程序鋪平了道路。AI的未來正變得更加可訪問、可靠，並嵌入我們的日常生活數字體驗中，我們很高興繼續引領這一潮流。”

長視頻也不怕！Goldfish：可理解任意長度視頻準確提升

Goldfish官網展示了一種創新技術，特製用於處理任意時長視頻，攻克了傳統AI模型處理長視頻時“噪聲與冗餘”以及“內存與計算”限制的問題。其關鍵包括： 1. **檢索機制**：採用高效技術從長視頻提取最相關的視頻片段，生成回答。 2. **MiniGPT4-Video**：一種爲視頻片段生成詳盡描述的功能，結合視頻幀與字幕，增強對視頻內容的全面理解。 3. **TVQA-long基準評估**：提出該基準測試用於評估模型理解長視頻能力，Goldfish以41.78%的準確率超越前技術。 4. **性能優化**：不僅長視頻處理能力強，在MSVD、MSRVTT、TGIF與TVQA等短視頻基準中逾越現有先進方案。綜上，Goldfish通過高效檢索與精準描述生成技術克服長視頻處理難題，同時在短視頻理解上展現出卓越綜合能力。

AI換衣技術IMAGDressing-v1：兼容ControlNet、文字提示詞生成場景背景

開發者發佈IMAGDressing-v1，一款AI虛擬換衣工具，提供更靈活、真實的虛擬穿衣體驗。核心特點包括：1）簡單的架構與高效生成逼真服裝能力。用戶僅需提供圖片，即可快速生成虛擬穿着效果，無需額外操作。2）兼容IP-Adapter和ControlNet等插件，擴展工具功能，適應更多應用需求。3）採用實驗性的局部更換功能，用戶能對服裝指定區域進行更改，提高虛擬試衣的實用性。此工具有力推動虛擬試衣技術進步，爲用戶提供直觀便捷、高度定製化的體驗。

Proton Mail推出AI寫作助手Scribe:注重隱私的智能寫作工具

在谷歌和微軟等科技巨頭紛紛在其電子郵件服務中引入AI功能的背景下，以隱私和安全著稱的Proton Mail也推出了自己的AI寫作助手——Proton Scribe。這一新功能旨在幫助用戶更高效地撰寫和優化電子郵件，同時嚴格保護用戶隱私。

AI“越獄”新招！“過去式”提示詞瞬間攻破GPT-4o等六大模型

文章指出，大型語言模型（LLMs）在處理自然語言任務中展現出色，然而，基於監督式微調、人類反饋的強化學習與對抗性訓練等方式的模型拒絕對有害請求的機制表現出了脆弱性。研究人員發現，通過將有害請求轉換爲過去時態，關鍵模型能夠“繞過”拒絕訓練，顯著提高其成功率。以GPT-4o爲例，率從1%提升至88%。這表明，儘管應對策略存在侷限性，在不同語言及特定輸入編碼下體現良好泛化能力，但處理不同時態的問題時則表現不佳。爲提高模型對過去時態重構請求的拒絕能力，論文建議在訓練數據中明確包含過去時態實例。該研究揭示了當前對齊技術的侷限性與AI泛化能力之間存在差距，並提醒我們需要仔細審視逐漸發展的AI安全保障。

英文視頻翻譯神器EasyVideoTrans 極速轉換，可靈活修改

在快速發展的全球化時代，跨語言溝通需求愈發增長，尤其是視頻內容的全球化傳播。爲滿足這一需求，EasyVideoTrans應運而生，它是一款先進的專業視頻轉換工具，其利用電腦顯卡GPU加速技術，實現了視頻轉換的高速度與高效能。這款工具以其獨特的GPU加速功能，將以往可能耗費數小時乃至數天的工作壓縮至幾分鐘內完成，極大提高了翻譯和校對的效率。它提供多種高級功能，包括字幕編輯、翻譯引擎選擇和對話人聲個性化設置，讓用戶根據需求自由定製轉換參數。藉助直觀的WEB界面和靈活的工作流程，EasyVideoTrans的操作過程愉快而便捷。除此之外，它還具備PlayGround頁面供用戶預覽和體驗，並支持多平臺使用，包括GitHub和Bilibili，爲用戶提供全面的獲取和使用支持。總之，EasyVideoTrans是一款結合了高效、個性化和用戶友好設計的視頻轉換工具，極大地促進了全球化視頻內容的多語言傳播。官網鏈接：https://easyvideotrans.com/