中國人工智能公司DeepSeek日前發佈了一款具有里程碑意義的開源大語言模型DeepSeek V3。這款擁有6710億參數的模型不僅規模超越Meta的Llama3.1,在多項基準測試中的表現也優於包括GPT-4在內的主流封閉源模型。

DeepSeek V3的突出特點在於其強大的性能與高效的開發過程。該模型在編程平臺Codeforces的競賽中表現出色,並在測試代碼集成能力的Aider Polyglot測試中領先競爭對手。模型訓練採用了14.8萬億token的龐大數據集,參數規模達到了Llama3.1的1.6倍。

AI 機器人 人工智能 (2)

更引人注目的是,DeepSeek僅用兩個月時間、550萬美元成本就完成了模型訓練,這個數字遠低於同類產品的開發投入。

DeepSeek背後的支持方是中國量化對衝基金High-Flyer Capital Management。該基金投資建設了擁有10,000個Nvidia A100GPU、價值約1.38億美元的服務器集羣。High-Flyer創始人梁文峯表示,開源AI終將打破當前封閉模型的壟斷優勢。

DeepSeek V3採用寬鬆許可證發佈,允許開發者下載、修改並將其用於包括商業用途在內的各類應用。儘管運行完整版本仍需要強大的硬件支持,但這一開源模型的發佈標誌着AI領域的開放創新邁出重要一步。