中國私募巨頭幻方量化旗下的 DeepSeek,近日發佈了其最新的推理專注型大型語言模型 R1-Lite-Preview。該模型目前僅通過 DeepSeek Chat 這一網頁聊天機器人平臺提供給公衆使用。
DeepSeek 以其在開源 AI 生態系統中的創新貢獻而聞名,這次的新發布旨在爲公衆帶來高水平的推理能力,同時保持對可訪問性和透明性的承諾。儘管 R1-Lite-Preview 目前僅在聊天應用中可用,但它已憑藉接近甚至超過 OpenAI 近期發佈的 o1-preview 模型的性能引起了廣泛關注。
R1-Lite-Preview 採用 “鏈式思維” 推理,能夠展示其在響應用戶查詢時所經歷的不同思維過程。
儘管某些思維鏈可能對人類而言顯得無厘頭或錯誤,但整體而言,R1-Lite-Preview 的回答非常準確,甚至能夠解決一些傳統強大 AI 模型如 GPT-4o 和 Claude 系列遇到的 “陷阱” 問題,例如 “草莓” 這個詞裏有多少個字母 R?“9.11和9.9哪個大?”
根據 DeepSeek 的說法,該模型在需要邏輯推理、數學思考和實時問題解決的任務中表現出色。其性能在 AIME(美國邀請數學考試)和 MATH 等已建立的基準測試中超越了 OpenAI o1-preview 的水平。
此外,DeepSeek 還發布了模型的擴展數據,展示了在給予模型更多時間或 “思考令牌” 以解決問題時,其準確性穩步提高的趨勢。圖表強調,隨着思維深度的增加,該模型在 AIME 等基準上的得分提升。
目前,R1-Lite-Preview 的發佈在關鍵基準中表現優異,能夠處理從複雜數學到邏輯場景的一系列任務,得分與頂級推理模型如 GPQA 和 Codeforces 相當。該模型透明的推理過程讓用戶能夠實時觀察其邏輯步驟,增強了系統的責任感和可信度。
值得注意的是,DeepSeek 尚未發佈完整的代碼供第三方獨立分析或基準測試,也未提供 API 接口供獨立測試,該公司尚未發佈相關的博客文章或技術文檔,說明 R1-Lite-Preview 的訓練或構,這讓其背後的起源依然充滿疑問。
R1-Lite-Preview 目前可以通過 DeepSeek Chat(chat.deepseek.com)免費使用,但其高級 “深思” 模式每天限量50條消息,用戶可藉此體驗其強大能力。DeepSeek 計劃發佈 R1系列模型的開源版本和相關 API,進一步支持開源 AI 社區的發展。
DeepSeek 繼續在開源 AI 領域中推動創新,R1-Lite-Preview 的發佈爲其在推理和可擴展性方面增加了新的維度。隨着企業和研究者探索推理密集型 AI 的應用,DeepSeek 的開放承諾將確保其模型成爲發展和創新的重要資源。
官方入口:https://www.deepseek.com/
劃重點:
🌟 DeepSeek 發佈 R1-Lite-Preview 模型,性能接近並超越 OpenAI o1。
📊 模型展示透明的推理過程,用戶可以實時觀察邏輯步驟。
🔍 深度學習與邏輯推理能力顯著,未來將發佈開源版本和 API。