DeepSeek在知乎開設官方賬號,發佈了《DeepSeek-V3/R1推理系統概覽》技術文章,首次詳細披露其模型推理系統的優化細節和成本利潤率信息,標誌着備受關注的"DeepSeek開源周"正式結束。
文章介紹了DeepSeek-V3/R1推理系統的兩大優化目標:"更大的吞吐,更低的延遲"。爲實現這些目標,DeepSeek採用了大規模跨節點專家並行(EP)技術,儘管這增加了系統複雜性。文章重點闡述瞭如何利用EP技術增加批量大小、隱藏傳輸耗時以及實現負載均衡。
特別值得注意的是,DeepSeek罕見地公開了其成本和利潤率數據。文章披露:"假定GPU租賃成本爲2美金/小時,總成本爲$87,072/天。如果所有tokens全部按照DeepSeek R1的定價計算,理論上一天的總收入爲$562,027,成本利潤率545%。"