近日,谷歌的 Gemini 人工智能項目正在通過比較其輸出結果與 Anthropic 公司的 Claude 模型來提升自身性能。據 TechCrunch 獲得的內部通信記錄顯示,負責 Gemini 改進的承包商正在系統地評估這兩種 AI 模型的回答。

代碼 互聯網 電腦

圖源備註:圖片由AI生成,圖片授權服務商Midjourney

在 AI 行業,模型的性能評估通常通過行業基準測試來進行,而不是讓承包商逐一對比不同模型的答案。負責 Gemini 的承包商需要根據多個標準對模型的輸出進行評分,包括真實性和詳細程度。他們每次有多達30分鐘的時間來判斷 Gemini 和 Claude 的回答哪個更好。

最近,這些承包商注意到在他們使用的內部平臺上,Claude 的引用頻繁出現。部分顯示給承包商的內容明確表示:“我是由 Anthropic 創建的 Claude。” 在一次內部聊天中,承包商們還發現 Claude 的回答在強調安全性方面表現得更加突出。有承包商指出,Claude 的安全設置在所有 AI 模型中是最嚴格的。在某些情況下,Claude 會對它認爲不安全的提示選擇不迴應,比如角色扮演其他 AI 助手。而在另一個案例中,Claude 迴避了某個提示,而 Gemini 的回答卻因包含 “裸露和綁縛” 內容而被標記爲 “重大安全違規”。

需要注意的是,Anthropic 的商業服務條款禁止客戶在未獲得授權的情況下使用 Claude “構建競爭產品或服務” 或 “訓練競爭 AI 模型”。谷歌則是 Anthropic 的主要投資者之一。

谷歌 DeepMind 的發言人 Shira McNamara 在接受 TechCrunch 採訪時未透露谷歌是否獲得了 Anthropic 的批准來使用 Claude。McNamara 表示,DeepMind 確實會比較模型輸出進行評估,但並未對 Gemini 進行 Claude 模型的訓練。她提到:“當然,按照行業標準做法,我們在某些情況下會將模型輸出進行比較。然而,任何關於我們使用 Anthropic 模型訓練 Gemini 的說法都是不準確的。”

上週,TechCrunch 還獨家報道,谷歌的承包商被要求在自己專業領域以外的領域對 Gemini 的 AI 響應進行評分。一些承包商在內部通信中表示擔憂,認爲 Gemini 可能在敏感主題如醫療保健上生成不準確的信息。

劃重點:

🌟 Gemini 正在與 Claude 進行對比測試,以提升自身 AI 模型的性能。

🔍 承包商負責評分,兩者的回答比較涉及多個標準,包括真實性和安全性。

🚫 Anthropic 禁止在未授權的情況下使用 Claude 進行競爭性模型的訓練。