DeepSeek可能使用了Google Gemini數據訓練新 AI 模型

AIbase基地

Published in AI News · 1 minute read · Jul 16, 2025

近日， DeepSeek 發佈了其最新的 R1推理 AI 模型更新版，該模型在多個數學和編程基準測試中展現出色性能。然而，DeepSeek 並未透露其模型的訓練數據來源，令一些 AI 研究人員產生了疑問，並推測該模型可能部分基於 Google 的 Gemini AI 系列進行訓練。

墨爾本的開發者 Sam Paeach 聲稱，他發現 DeepSeek 的 R1-0528模型在用詞和表達方式上與 Google Gemini2.5Pro 有許多相似之處。雖然這並不能作爲直接證據，但另一位開發者 —— 匿名的 SpeechMap 項目創始人 —— 也提到，DeepSeek 模型在推理過程中產生的 “思維軌跡” 與 Gemini 的表現如出一轍。這一發現再次引發了關於 DeepSeek 是否在訓練中使用了競爭對手數據的討論。

DeepSeek

圖源備註：圖片由AI生成，圖片授權服務商Midjourney

早在去年12月，DeepSeek 就曾因其 V3模型頻繁將自己標識爲 OpenAI 的 ChatGPT 而受到指責，這一行爲暗示該模型可能是通過 ChatGPT 的聊天記錄進行訓練的。今年早些時候，OpenAI 向媒體透露，發現了 DeepSeek 與 “數據蒸餾” 技術相關的證據。“數據蒸餾” 是一種通過從大型模型中提取信息來訓練新模型的方法。彭博社報道稱，OpenAI 的合作伙伴微軟在2024年底發現，很多數據是通過 OpenAI 開發者賬戶泄露的，這些賬戶可能與 DeepSeek 有關。

儘管 “提煉” 技術在 AI 界並不罕見，但 OpenAI 明確規定禁止用戶使用其模型輸出構建競爭產品。需要注意的是，由於開放網絡中充斥着大量低質量內容，許多 AI 模型在訓練中往往會錯誤地模仿彼此的用詞和措辭。這使得深度剖析訓練數據源變得更加複雜。

人工智能專家 Nathan Lambert 認爲，DeepSeek 使用 Google Gemini 的數據進行訓練並非不可能。他提到，DeepSeek 擁有充足的資金，能夠利用市面上最佳的 API 模型生成合成數據。爲了防止數據被提煉，AI 公司們也在不斷加強安全措施。例如，OpenAI 已開始要求各組織完成身份驗證才能訪問某些高級模型，而 Google 也在努力提高其 AI Studio 平臺的安全性，限制對模型生成軌跡的訪問。

松下推出 “OmniFlow” 多模態生成AI實現文本、圖像與音頻的自由轉換

松下控股公司（Panasonic HD）聯合美國松下研發公司(PRDCA)及加州大學洛杉磯分校(UCLA)的研究人員，成功開發出名爲 “OmniFlow” 的多模態生成 AI。這項技術的亮點在於其具備 “任意對任意” 的生成能力，可以實現文本、圖像和音頻之間的自由轉換，極大地提升了多模態生成 AI 的應用潛力。近年來，多模態生成 AI 的研究越來越受到關注，尤其是結合音頻的生成技術。然而，傳統方法在數據獲取上存在侷限，尤其是在同時處理文本、圖像和音頻數據時，所需的訓練數據量和成本大幅增加。針對

AI 教父本吉奧宣佈創建 “科學家 AI” 系統，致力於防範智能體欺騙

著名計算機科學家、被譽爲 AI “教父” 的約書亞・本吉奧（Yoshua Bengio）近日宣佈成立一個名爲 LawZero 的非營利組織，目標是開發一種 “誠信” 人工智能系統，以防止 AI 智能體對人類實施欺騙行爲。6月3日，本吉奧在新聞發佈會上透露，該組織將專注於打造一套安全防護機制，確保 AI 在運行過程中不會試圖欺騙用戶或進行自我保護，例如逃避被關閉的情況。圖源備註：圖片由AI生成，圖片授權服務商Midjourney本吉奧作爲 LawZero 的主席，已爲此項目提供了約3000萬美元的啓動資金，並組建了一

韓國總統李在明：將大規模投資人工智能和芯片

韓國新任總統李在明在國會正式宣誓就職。宣誓後，他發表了充滿信心的就職演講，向公衆闡述了他對國家未來的願景與計劃。在演講中，李在明提到，未來韓國將加大對人工智能、半導體等高科技產業的支持力度。這些領域將成爲推動經濟發展的新引擎，幫助韓國打造一個強大的工業國，並增強國際競爭力。他強調，高科技產業的發展不僅能推動經濟增長，還能爲廣大人民創造更多就業機會，改善生活水平。

OpenAI 收購 Windsurf 引發開發者不滿，Claude模型訪問權限遭遇瓶頸

OpenAI 近期以30億美元收購了氛圍編碼初創公司 Windsurf，但隨之而來的卻是用戶對 Claude 模型訪問權限受限的不滿。這一情況不僅讓 Windsurf 的用戶感到困惑，也對公司的未來增長潛力造成了威脅。自從收購完成後，Windsurf 的用戶開始發現，Anthropic 的 Claude3.7Sonnet 和 Claude3.5Sonnet 模型的訪問權限大幅減少。由於這兩個模型的可用性下降，開發者們面臨着無法使用其所需工具的窘境。儘管 Windsurf 試圖通過第三方服務來解決這一問題，然而，由於成本的增加和操作的複雜性，用戶體驗並沒有得到改

紐約時報與亞馬遜簽署首個生成式 AI 內容許可協議

近日，《紐約時報》宣佈與亞馬遜達成了一項重要的內容許可協議，這是該報首次專注於生成式人工智能技術。這一協議的簽署標誌着《紐約時報》將其新聞編輯內容向亞馬遜的 AI 平臺開放，雙方將共同探索如何在新的技術環境中維護內容價值。根據《紐約時報》的聲明，這份多年期協議不僅涉及其核心新聞報道，還包括旗下美食網站 NYT Cooking 和體育媒體 The Athletic 的相關內容。通過這次合作，亞馬遜的 AI 模型將能夠使用《紐約時報》的報道進行訓練，這意味着生成式 AI 將能更好地理解

PlayDiffusion發佈：開源擴散模型實現語音“局部修改”不留痕

Play AI 日前開源推出了一款全新語音編輯模型——PlayDiffusion，這是一種基於擴散模型的創新性工具，專爲語音局部修改而設計。不同於傳統的文本轉語音系統需對整段音頻重生成，PlayDiffusion 支持直接對語音中的某一部分進行替換、刪除或調整，而其他未修改部分將保持完全一致。這種方式不僅極大提高了效率，也讓音頻編輯進入“所聽即所得”的新階段。用戶只需提供目標文本（例如將音頻中的“Neo”改爲“Morpheus”），模型便可精準識別需替換位置，並智能調整節奏、語調以及說話人的