DeepSeek 悄然發佈了其最新的大型語言模型 DeepSeek-V3-0324,在人工智能行業內引發了強烈反響。這款 容量高達641GB 的模型悄然出現在 AI 模型庫 Hugging Face 上,幾乎沒有任何事先宣傳,延續了該公司低調但極具影響力的發佈風格。

性能飛躍,媲美 Claude Sonnet3.5

DeepSeek-V3的發佈之所以引人注目,不僅在於其強大的功能,更在於其部署方式和許可協議。早期測試者報告稱,新模型在各項指標上都取得了巨大的進步。

AI 研究員 Xeophon 在 X 平臺上表示,DeepSeek V3在其內部測試中“所有測試的所有指標都有了巨大飛躍”,並聲稱其現在是“最好的非推理模型,取代了 Sonnet3.5”。如果這一說法得到更廣泛的驗證,DeepSeek 的新模型將超越 Anthropic 備受尊敬的商業 AI 系統 Claude Sonnet3.5。

QQ_1742863943914.png

開源商用,惠及大衆:打破付費壁壘

與需要訂閱才能使用的 Sonnet 不同,DeepSeek-V3-0324的模型權重是完全免費的,任何人都可以下載和使用

更重要的是,該模型採用了 MIT 許可證,這意味着它可以 自由地用於商業用途。這種開放的姿態與西方 AI 公司通常將模型置於付費牆之後的做法形成了鮮明對比。

MoE 架構與兩大突破

DeepSeek V3-0324的突破性架構實現了無與倫比的效率。該模型採用了 混合專家 (MoE) 架構,從根本上改變了大型語言模型的運行方式。與傳統模型在每個任務中都激活所有參數不同,DeepSeek 的方法 在特定任務中僅激活其6850億參數中的約370億個。這種選擇性激活代表了模型效率的巨大轉變,使其在大幅降低計算需求的同時,實現了與更大的完全激活模型相當的性能。

QQ_1742863928895.png

此外,該模型還融入了兩項額外的突破性技術:多頭潛在注意力 (MLA)多令牌預測 (MTP)。MLA 增強了模型在長文本中保持上下文的能力,而 MTP 則可以 每步生成多個令牌,而不是通常的一次生成一個。這些創新共同 將輸出速度提高了近80%

硬件友好,本地運行:消費級設備也能駕馭

開發者工具創建者 Simon Willison 在一篇博客文章中指出,一個 4位量化版本將存儲佔用減少到352GB,這使得在高端消費級硬件(如配備 M3Ultra 芯片的 Mac Studio)上運行成爲可能。

AI 研究員 Awni Hannun 在社交媒體上寫道:“新的 DeepSeek-V3-0324在配備 mlx-lm 的512GB M3Ultra 上以 >20個 tokens/秒的速度運行!”。儘管9499美元的 Mac Studio 可能超出了“消費級硬件”的定義,但 在本地運行如此龐大的模型 與通常需要數據中心級 AI 基礎設施的最新 AI 形成了鮮明對比。

Mac Studio 在推理過程中的功耗不到200瓦,而傳統的 AI 基礎設施通常依賴於消耗數千瓦功率的多個 Nvidia GPU。

風格轉變,更重技術

早期用戶報告稱,新模型的溝通風格發生了明顯的變化。之前的 DeepSeek 模型因其對話式的、類似人類的語調而受到讚揚,而 “V3-0324” 則呈現出 更正式、更注重技術的風格

一些用戶在 Reddit 上表達了這種變化,認爲新版本聽起來“不那麼像人類”,失去了以前版本“像人類一樣的語調”。這種轉變可能反映了 DeepSeek 工程師的有意識設計選擇,旨在將模型重新定位爲更專業的和技術性的應用。

DeepSeek 的發佈策略體現了中國和西方公司在 AI 商業理念上的根本差異。美國領導者如 OpenAI 和 Anthropic 將其模型置於付費牆之後,而中國 AI 公司則越來越傾向於採用寬鬆的開源許可。

這種開放性正在迅速改變中國的 AI 生態系統,使得初創公司、研究人員和開發者能夠在先進的 AI 技術基礎上進行創新,而無需大量的資本支出。包括百度、阿里巴巴和騰訊在內的中國科技巨頭也紛紛推出或計劃推出開源 AI 模型。在獲取尖端 Nvidia 芯片受限的情況下,中國公司更加重視效率和優化,這反而成爲了一種潛在的競爭優勢。

DeepSeek-V3-0324的發佈也被認爲是其下一代推理模型 DeepSeek-R2的基礎。

考慮到 Nvidia 首席執行官黃仁勳最近指出 DeepSeek 的 R1模型“比非推理 AI 消耗多100倍的計算量”,DeepSeek 在資源受限的情況下實現如此性能令人矚目。

如果 DeepSeek-R2遵循 R1的發展軌跡,它可能會對 OpenAI 傳聞即將發佈的 GPT-5構成直接挑戰。DeepSeek 這種開放、資源高效的戰略與 OpenAI 封閉、資金雄厚的戰略代表了人工智能未來的兩種競爭願景.

目前,用戶可以通過 Hugging Face 下載完整的模型權重,也可以通過 OpenRouter 等平臺體驗 DeepSeek-V3-0324的 API 接口。DeepSeek 自己的聊天界面也可能已更新至新版本。DeepSeek 的開放戰略正在重新定義全球 AI 格局,預示着一個更開放、更普及的 AI 創新時代的到來。

項目:https://top.aibase.com/tool/deepseek-v3-0324