近日,一場關於 AI 架構起源的爭論在社交媒體上鬧得沸沸揚揚。被譽爲“歐洲版 OpenAI”的MistralCEO Arthur Mensch 在接受訪談時表示,中國強勁的開源模型DeepSeek-V3實際上是基於 Mistral 提出的架構構建的。此番言論一出,立即引來了全球開發者和網友的圍觀與質疑。
核心爭議:是“致敬”還是“自主創新”?
Arthur Mensch 在訪談中提到,Mistral 在2024年初發布了首個稀疏混合專家模型(MoE),而他認爲 DeepSeek 隨後的版本都是在此基礎上構建的,稱其“採用了相同的架構”。
然而,嚴謹的網友通過查閱 arXiv 上的原始論文發現了疑點:
發佈時間膠着:Mixtral的論文與DeepSeek MoE論文的發表時間僅相差3天,很難界定誰真正影響了誰。
架構思路迥異:雖然兩者都屬於稀疏混合專家系統(SMoE),但 Mixtral 更偏向工程優化,而 DeepSeek 在算法上進行了深度重構。
專家設計不同:DeepSeek 引入了“細粒度專家分割”和“共享專家”機制,將通用知識與特定知識解耦,這與 Mixtral 的扁平化專家設計有本質區別。
技術反轉:誰在“歲月史書”?
令人玩味的是,這場爭論很快出現了反轉。有技術專家指出,與其說 DeepSeek 借鑑了 Mistral,倒不如說情況可能相反。
架構迴流:2025年底發佈的Mistral3Large被網友扒出,其底層架構反而與 DeepSeek-V3採用的 MLA 等創新技術高度相似。
影響力變遷:網友調侃稱,Mistral 似乎在試圖通過“改寫歷史”來挽回技術領先地位的流失,因爲 DeepSeek 在 MoE 架構的創新上顯然獲得了更大的行業影響力。
AI 界的“共同進步”還是“嘴炮大戰”?
儘管存在爭論,但正如 Mensch 在訪談前半部分所說,開源精神的核心在於“大家在彼此的基礎上不斷進步”。
競爭白熱化:DeepSeek已被曝瞄準2026年春節檔,準備發佈更強的新模型。
開源之爭:Mistral 也在持續更新其Devstral家族,試圖奪回開源編程智能體的高地。
這場“口水仗”背後,反映出全球頂尖 AI 實驗室在技術迭代速度上的極度焦慮。在代碼與公式面前,單純的口頭宣誓往往無力,真正的勝負終將在模型性能的實測中揭曉。
