一家來自中國的AI實驗室DeepSeek本週突然闖入全球視野,其聊天機器人應用登頂蘋果App Store和Google Play下載榜首。這家公司採用計算高效技術訓練的AI模型,引發華爾街分析師和科技界對美國能否保持AI領先地位以及AI芯片需求可持續性的質疑。
DeepSeek的背後是中國量化對衝基金幻方量化(High-Flyer Capital Management)。該基金利用AI技術輔助交易決策,由AI愛好者梁文鋒於 2015 年聯合創立。據報道,梁文鋒在浙江大學就讀期間開始涉足交易領域, 2019 年將幻方轉型爲專注開發和部署AI算法的對衝基金。
2023 年,幻方啓動DeepSeek項目,作爲獨立於金融業務的AI工具研究實驗室。隨後在幻方的投資支持下,該實驗室分拆爲獨立公司DeepSeek。
從創立之初,DeepSeek就自建數據中心集羣用於模型訓練。但與其他中國AI公司一樣,DeepSeek受到美國硬件出口禁令影響。訓練最近的模型時,公司被迫使用英偉達H800 芯片,這是性能弱於美國公司可獲得的H100 芯片的降級版本。
據瞭解,DeepSeek技術團隊年齡結構偏年輕,公司積極從中國頂尖大學招募AI領域博士研究人員。《紐約時報》報道稱,DeepSeek還僱用沒有計算機科學背景的人員,幫助技術團隊更好理解廣泛的學科領域。
DeepSeek於 2023 年 11 月發佈首批模型DeepSeek Coder、DeepSeek LLM和DeepSeek Chat。直到去年春季發佈新一代DeepSeek-V2 系列模型時,AI行業纔開始真正關注這家公司。
DeepSeek-V2 是一個通用文本和圖像分析系統,在多項AI基準測試中表現出色,運行成本遠低於當時的同類模型。這迫使字節跳動和阿里巴巴等國內競爭對手削減部分模型的使用價格,甚至將某些模型完全免費開放。
2024 年 12 月發佈的DeepSeek-V3 進一步提升了該公司的知名度。根據內部基準測試,DeepSeek V3 的性能超越了Meta的Llama等可下載開源模型,以及OpenAI GPT-4o等僅能通過API訪問的封閉模型。
同樣令人印象深刻的是DeepSeek的R1 推理模型。該模型於今年 1 月發佈,DeepSeek聲稱其在關鍵基準測試中的表現與OpenAI的o1 模型相當。
作爲推理模型,R1 能夠有效地自我驗證,幫助避免一些常見錯誤。推理模型通常需要多花幾秒到幾分鐘時間才能得出解決方案,但優勢是在物理、科學和數學等領域更加可靠。
不過DeepSeek的模型也存在侷限性。作爲中國開發的AI系統,這些模型需要接受中國互聯網監管機構的基準測試,確保響應"體現社會主義核心價值觀"。在DeepSeek聊天應用中,R1 不會回答關於天安門廣場或臺灣自治等敏感問題。
3 月份DeepSeek訪問量超過 1650 萬次。Similarweb編輯David Carr告訴TechCrunch:" 3 月份DeepSeek排名第二,儘管每日訪問量比 2 月下降了25%。"但這仍遠低於ChatGPT,後者 3 月的每週活躍用戶超過 5 億。
5 月,DeepSeek在開發者平臺Hugging Face上發佈了R1 推理模型的更新版本。 9 月,公司推出名爲V3.2-exp的實驗模型,旨在大幅降低長上下文操作中的推理成本。
如果說DeepSeek有商業模式,目前尚不清楚具體是什麼。該公司產品和服務定價遠低於市場價格,部分服務甚至免費提供。儘管風投機構興趣濃厚,但公司並未接受外部投資。
DeepSeek聲稱效率突破使其能夠保持極端成本競爭力,但一些專家對公司提供的數據持懷疑態度。
無論如何,開發者已經廣泛採用DeepSeek的模型。這些模型雖非傳統意義上的開源,但採用寬鬆許可證允許商業使用。Hugging Face首席執行官Clem Delangue表示,該平臺上的開發者已創建超過 500 個R1 衍生模型,總下載量達 250 萬次。
DeepSeek對更大更成熟競爭對手的成功被描述爲"顛覆AI行業"和"過度炒作"。該公司的成功至少部分導致英偉達股價 1 月份下跌18%,並引發OpenAI首席執行官Sam Altman的公開回應。 3 月,據路透社報道,美國商務部各局通知員工DeepSeek將在政府設備上被禁用。
微軟宣佈在其Azure AI Foundry服務上提供DeepSeek。在第一季度財報電話會議上被問及DeepSeek對Meta AI支出的影響時,首席執行官扎克伯格表示AI基礎設施支出將繼續是Meta的"戰略優勢"。 3 月,OpenAI稱DeepSeek"受國家補貼"且"受國家控制",建議美國政府考慮禁止DeepSeek模型。
英偉達第四季度財報電話會議上,首席執行官黃仁勳強調了DeepSeek的"卓越創新",表示該公司及其他推理模型對英偉達有利,因爲它們需要更多計算資源。
與此同時,一些公司和國家正在禁用DeepSeek,包括韓國。紐約州也禁止在政府設備上使用DeepSeek。 5 月,微軟副董事長兼總裁Brad Smith在參議院聽證會上表示,出於數據安全和宣傳擔憂,微軟員工不允許使用DeepSeek。
至於DeepSeek的未來走向尚不明朗。改進模型是必然的,但美國政府似乎對其認爲的有害外國影響越來越警惕。 3 月,《華爾街日報》報道稱美國可能會在政府設備上禁用DeepSeek。