中國人工智能初創公司DeepSeek悄然發佈了大型語言模型DeepSeek-V3-0324,在人工智能行業引發了震動。該模型以641GB的體量現身於AI資源庫Hugging Face,此次發佈延續了DeepSeek低調卻極具影響力的風格,沒有大肆宣傳,僅附帶空的README文件和模型權重。

這款模型採用MIT許可,可免費用於商業用途,且能在消費級硬件——配備M3Ultra芯片的蘋果Mac Studio上直接運行。AI研究人員Awni Hannun在社交媒體透露,4位量化版本的DeepSeek-V3-0324在512GB的M3Ultra芯片上,運行速度超20令牌/秒。儘管Mac Studio價格高昂,但能在本地運行如此大規模模型,打破了以往頂尖AI對數據中心的依賴。

DeepSeek

DeepSeek-V3-0324採用混合專家(MoE)架構,執行任務時僅激活約370億個參數,而非全部6850億個參數,大幅提升了效率。同時,它融入了多頭潛在注意力(MLA)和多令牌預測(MTP)技術,MLA增強了模型在長文本中的上下文理解能力,MTP使模型每次能生成多個令牌,輸出速度提升近80%。4位量化版本將存儲需求降至352GB,這使得在高端消費級硬件上運行成爲可能。

早期測試者反饋,DeepSeek-V3-0324較上一版本有顯著提升。AI研究人員Xeophon宣稱,該模型在所有測試指標上都有巨大飛躍,已超越Anthropic的Claude Sonnet3.5,成爲最佳非推理模型。而且,與需訂閱使用的Sonnet不同,DeepSeek-V3-0324的權重可免費下載使用。

QQ20250325-085347.png

DeepSeek的開源發佈策略與西方AI公司形成鮮明對比。美國的OpenAI和Anthropic等將模型設置付費門檻,而中國AI企業愈發傾向於寬鬆的開源許可。這一策略加速了中國AI生態系統的發展,像百度、阿里巴巴和騰訊等科技巨頭也紛紛跟進,發佈開源AI模型。在面臨英偉達芯片限制的情況下,中國企業通過強調效率和優化,將劣勢轉化爲競爭優勢。

DeepSeek-V3-0324很可能是即將推出的DeepSeek-R2推理模型的基礎。當前推理模型計算需求巨大,若DeepSeek-R2性能出色,將對OpenAI傳聞中的GPT-5構成直接挑戰。

對於想要體驗DeepSeek-V3-0324的用戶和開發者,可從Hugging Face下載完整模型權重,但文件較大,對存儲和計算資源要求較高。也可選擇雲服務,如OpenRouter提供免費API訪問和友好的聊天界面;DeepSeek自身的聊天界面可能也已更新支持新版本。開發者還能通過Hyperbolic Labs等推理服務提供商集成該模型。

值得注意的是,DeepSeek-V3-0324在溝通風格上有所變化,從之前類似人類的對話式風格轉變爲更正式、技術化的風格。這種轉變是爲了適應專業和技術應用場景,但可能會影響其在面向消費者應用中的吸引力。

DeepSeek的開源策略正在重塑全球AI格局。此前,中國AI與美國有1-2年的差距,如今已大幅縮小至3-6個月,部分領域甚至實現了趕超。就像安卓系統通過開源獲得全球主導地位一樣,開源AI模型憑藉廣泛的應用和開發者的集體創新,有望在競爭中脫穎而出,推動AI技術更廣泛地應用。