尷尬！谷歌被曝用Claude模型進行對比測試來改進Gemini AI

近日，谷歌的 Gemini 人工智能項目正在通過比較其輸出結果與 Anthropic 公司的 Claude 模型來提升自身性能。據 TechCrunch 獲得的內部通信記錄顯示，負責 Gemini 改進的承包商正在系統地評估這兩種 AI 模型的回答。

代碼互聯網電腦

圖源備註：圖片由AI生成，圖片授權服務商Midjourney

在 AI 行業，模型的性能評估通常通過行業基準測試來進行，而不是讓承包商逐一對比不同模型的答案。負責 Gemini 的承包商需要根據多個標準對模型的輸出進行評分，包括真實性和詳細程度。他們每次有多達30分鐘的時間來判斷 Gemini 和 Claude 的回答哪個更好。

最近，這些承包商注意到在他們使用的內部平臺上，Claude 的引用頻繁出現。部分顯示給承包商的內容明確表示:“我是由 Anthropic 創建的 Claude。” 在一次內部聊天中，承包商們還發現 Claude 的回答在強調安全性方面表現得更加突出。有承包商指出，Claude 的安全設置在所有 AI 模型中是最嚴格的。在某些情況下，Claude 會對它認爲不安全的提示選擇不迴應，比如角色扮演其他 AI 助手。而在另一個案例中，Claude 迴避了某個提示，而 Gemini 的回答卻因包含 “裸露和綁縛” 內容而被標記爲 “重大安全違規”。

需要注意的是，Anthropic 的商業服務條款禁止客戶在未獲得授權的情況下使用 Claude “構建競爭產品或服務” 或 “訓練競爭 AI 模型”。谷歌則是 Anthropic 的主要投資者之一。

谷歌 DeepMind 的發言人 Shira McNamara 在接受 TechCrunch 採訪時未透露谷歌是否獲得了 Anthropic 的批准來使用 Claude。McNamara 表示，DeepMind 確實會比較模型輸出進行評估，但並未對 Gemini 進行 Claude 模型的訓練。她提到:“當然，按照行業標準做法，我們在某些情況下會將模型輸出進行比較。然而，任何關於我們使用 Anthropic 模型訓練 Gemini 的說法都是不準確的。”

上週，TechCrunch 還獨家報道，谷歌的承包商被要求在自己專業領域以外的領域對 Gemini 的 AI 響應進行評分。一些承包商在內部通信中表示擔憂，認爲 Gemini 可能在敏感主題如醫療保健上生成不準確的信息。

劃重點:
🌟 Gemini 正在與 Claude 進行對比測試，以提升自身 AI 模型的性能。
🔍 承包商負責評分，兩者的回答比較涉及多個標準，包括真實性和安全性。
🚫 Anthropic 禁止在未授權的情況下使用 Claude 進行競爭性模型的訓練。

尷尬！谷歌被曝用Claude模型進行對比測試來改進Gemini AI

相關推薦

研究稱 ChatGPT、Claude 等模型過度高估了人類的邏輯水平

AI人才爭奪戰升級:OpenAI、谷歌等科技巨頭爲實習生開出“天價”薪資

Waymo車內將現Gemini AI助手！1200行指令曝光，定義“安全、簡潔、不越界”的乘客陪伴者

知乎2025 AI 榜單出爐:豆包登頂、DeepSeek 領跑，誰纔是你心裏的 AI 屆“鋼鐵俠”?

Anthropic 推出全新開源 Agent Skills 知識庫，助力 Claude 模型技能拓展

尷尬！谷歌被曝用Claude模型進行對比測試 來改進Gemini AI

相關推薦

研究稱 ChatGPT、Claude 等模型過度高估了人類的邏輯水平

AI人才爭奪戰升級:OpenAI、谷歌等科技巨頭爲實習生開出“天價”薪資

Waymo車內將現Gemini AI助手！1200行指令曝光，定義“安全、簡潔、不越界”的乘客陪伴者

知乎2025 AI 榜單出爐:豆包登頂、DeepSeek 領跑，誰纔是你心裏的 AI 屆“鋼鐵俠”?

​Anthropic 推出全新開源 Agent Skills 知識庫，助力 Claude 模型技能拓展

尷尬！谷歌被曝用Claude模型進行對比測試來改進Gemini AI

Anthropic 推出全新開源 Agent Skills 知識庫，助力 Claude 模型技能拓展