今年1月,DeepSeek發佈的R1模型不僅是一次普通的AI公告,更被譽爲科技行業的“分水嶺”,其影響力震動了整個科技行業,迫使行業領導者重新思考AI開發的基本方法。DeepSeek的非凡成就並非源於新穎的功能,而是它以極低的成本實現了與科技巨頭相媲美的成果,這標誌着AI發展正沿着“效率”和“計算”兩條並行軌道快速前進。
在約束中創新:低成本實現高性能
DeepSeek的異軍突起令人矚目,它展現了即使在重大限制下,創新也能蓬勃發展的能力。面對美國對尖端AI芯片的出口管制,DeepSeek被迫尋找AI發展的其他途徑。當美國公司通過更強大的硬件、更大的模型和更優質的數據追求性能提升時,DeepSeek則專注於優化現有資源,以卓越的執行力將已知理念付諸實踐,這本身就是一種創新。
這種效率至上的理念帶來了令人矚目的成果。據報道,DeepSeek的R1模型性能可媲美OpenAI,但運營成本僅爲後者的5%到10%。更令人震驚的是,DeepSeek前身V3的最終訓練運行成本僅爲600萬美元,與美國競爭對手動輒數千萬甚至數億美元的投入相比,這筆預算被特斯拉前AI科學家Andrej Karpathy稱爲“笑話”。據報道,OpenAI花費5億美元訓練其最新的“Orion”模型,而DeepSeek僅花費560萬美元就取得了卓越的基準測試結果,不到OpenAI投資的1.2%。
值得注意的是,DeepSeek實現這些成果並非完全處於芯片劣勢。美國最初的出口管制主要針對計算能力,而非內存和網絡——而內存和網絡是AI發展的關鍵要素。這意味着DeepSeek使用的芯片具備良好的網絡和內存功能,使其能夠在多個單元之間並行執行操作,這是高效運行大型模型的關鍵策略。再加上中國在人工智能基礎設施垂直堆棧上的大力推動,進一步加速了這種創新。
實用主義數據策略:合成數據與模型架構優化
除了硬件優化,DeepSeek的訓練數據方法也獨具一格。據報道,DeepSeek並非僅僅依賴從網絡抓取的內容,而是利用了大量的合成數據和其他專有模型的輸出,這正是模型蒸餾的經典示例。儘管這種方法可能引發西方企業客戶的數據隱私和治理擔憂,但它凸顯了DeepSeek注重結果而非過程的務實作風。
有效利用合成數據是DeepSeek的關鍵差異化因素。DeepSeek等基於Transformer且採用混合專家(MoE)架構的模型在整合合成數據時更加穩健,而傳統密集架構的模型若過度使用合成數據可能導致性能下降甚至“模型崩潰”。DeepSeek的工程團隊在最初規劃階段就專門設計了模型架構,將合成數據集成納入考量,從而在不犧牲性能的情況下充分利用合成數據的成本效益。
市場反響:重塑AI行業格局
DeepSeek的崛起已引發行業領導者的實質性戰略轉變。例如,OpenAI首席執行官Sam Altman近期宣佈計劃發佈公司自2019年以來首個“開放權重”語言模型。DeepSeek和Llama的成功似乎給OpenAI帶來了巨大沖擊。DeepSeek推出僅一個月後,Altman便承認OpenAI在開源AI方面“站在了歷史的錯誤一邊”。
面對每年高達70億至80億美元的運營成本,DeepSeek等高效替代方案帶來的經濟壓力已不容忽視。正如人工智能學者李開復所言,競爭對手的免費開源模型正迫使OpenAI做出改變。儘管OpenAI進行了400億美元的鉅額融資,公司估值達到3000億美元,但其方法比DeepSeek耗費更多資源的根本挑戰依然存在。
超越模型訓練:邁向“測試時計算”和自主評估
DeepSeek還加速了向“測試時計算”(TTC)的轉變。隨着預訓練模型對公共數據利用接近飽和,數據稀缺正在減緩預訓練的進一步改進。爲解決此問題,DeepSeek宣佈與清華大學合作,實現“自我原則性評論調優”(SPCT),即AI開發自己的內容評判規則,並利用這些規則提供詳細評論,包含內置的“評委”實時評估AI的答案。
這項進展是AI系統自主評估和改進運動的一部分,模型利用推理時間來改進結果,而非簡單地增大模型規模。DeepSeek將其系統稱爲“DeepSeek-GRM”(通用獎勵模型)。然而,這種方法也伴隨着風險:如果AI制定自己的評判標準,可能偏離人類價值觀、倫理道德,甚至強化錯誤的假設或幻覺,引發對AI自主判斷的深層擔憂。儘管如此,DeepSeek再次在他人工作的基礎上,創建了可能是SPCT在商業上的第一個全棧應用程序。這可能標誌着AI自主性的重大轉變,但仍需嚴格的審計、透明度和保障措施。
展望未來:適應與變革
綜合來看,DeepSeek的崛起預示着人工智能行業將朝着並行創新軌道邁進。在各大公司持續構建更強大的計算集羣的同時,它們也將重點關注通過軟件工程和模型架構改進來提升效率,以應對AI能耗帶來的挑戰。微軟已停止了全球多個地區的數據中心建設,轉向更加分佈式、高效的基礎設施建設,並計劃重新分配資源以應對DeepSeek帶來的效率提升。Meta也發佈了首次採用MoE架構的Llama4模型系列,並將其與DeepSeek模型進行基準測試,這標誌着中國AI模型已成爲硅谷公司值得參考的基準。
頗具諷刺意味的是,美國原本旨在維護其AI主導地位的制裁,反而加速了其試圖遏制的創新。展望未來,隨着行業在全球範圍內的持續發展,所有參與者的適應能力將成爲關鍵。政策、人員和市場反應將繼續改變基本規則,我們彼此之間如何學習,以及如何應對,值得持續關注。