近日, DeepSeek 發佈了其最新的 R1推理 AI 模型更新版,該模型在多個數學和編程基準測試中展現出色性能。然而,DeepSeek 並未透露其模型的訓練數據來源,令一些 AI 研究人員產生了疑問,並推測該模型可能部分基於 Google 的 Gemini AI 系列進行訓練。
墨爾本的開發者 Sam Paeach 聲稱,他發現 DeepSeek 的 R1-0528模型在用詞和表達方式上與 Google Gemini2.5Pro 有許多相似之處。雖然這並不能作爲直接證據,但另一位開發者 —— 匿名的 SpeechMap 項目創始人 —— 也提到,DeepSeek 模型在推理過程中產生的 “思維軌跡” 與 Gemini 的表現如出一轍。這一發現再次引發了關於 DeepSeek 是否在訓練中使用了競爭對手數據的討論。
圖源備註:圖片由AI生成,圖片授權服務商Midjourney
早在去年12月,DeepSeek 就曾因其 V3模型頻繁將自己標識爲 OpenAI 的 ChatGPT 而受到指責,這一行爲暗示該模型可能是通過 ChatGPT 的聊天記錄進行訓練的。今年早些時候,OpenAI 向媒體透露,發現了 DeepSeek 與 “數據蒸餾” 技術相關的證據。“數據蒸餾” 是一種通過從大型模型中提取信息來訓練新模型的方法。彭博社報道稱,OpenAI 的合作伙伴微軟在2024年底發現,很多數據是通過 OpenAI 開發者賬戶泄露的,這些賬戶可能與 DeepSeek 有關。
儘管 “提煉” 技術在 AI 界並不罕見,但 OpenAI 明確規定禁止用戶使用其模型輸出構建競爭產品。需要注意的是,由於開放網絡中充斥着大量低質量內容,許多 AI 模型在訓練中往往會錯誤地模仿彼此的用詞和措辭。這使得深度剖析訓練數據源變得更加複雜。
人工智能專家 Nathan Lambert 認爲,DeepSeek 使用 Google Gemini 的數據進行訓練並非不可能。他提到,DeepSeek 擁有充足的資金,能夠利用市面上最佳的 API 模型生成合成數據。爲了防止數據被提煉,AI 公司們也在不斷加強安全措施。例如,OpenAI 已開始要求各組織完成身份驗證才能訪問某些高級模型,而 Google 也在努力提高其 AI Studio 平臺的安全性,限制對模型生成軌跡的訪問。