剛剛登場不久的開源 AI 模型 Reflection70B,近日就遭到了業界的廣泛質疑。

這款由紐約初創公司 HyperWrite 發佈的模型,自稱是 Meta 公司的 Llama3.1變種,曾以其在第三方測試中的優異表現引發關注。然而,隨着一些測試結果的公佈,Reflection70B 的聲譽卻開始受到挑戰。

事情的起因是 HyperWrite 的聯合創始人兼 CEO Matt Shumer 於9月6日在社交媒體 X 上宣佈了 Reflection70B,並信心滿滿地稱其爲 “全球最強的開源模型”。

image.png

Shumer 還分享了關於這款模型的 “反射調優” 技術,聲稱這一方法能讓模型在生成內容前自我審覈,從而提升準確性。

然而,在HyperWrite宣佈後的第二天,專門進行“AI模型和託管提供商獨立分析”的組織Artificial Analysis在X上發佈了自己的分析,指出他們評估的Reflection Llama3.170B的MMLU(Massive Multitask Language Understanding)得分與Llama370B相同,但明顯低於Meta的Llama3.170B,這與HyperWrite/Shumer最初發布的結果存在重大差異。

image.png

Shumer隨後表示,Reflection70B的權重(或開源模型的設置)在上傳到Hugging Face(第三方AI代碼託管存儲庫和公司)的過程中出現了問題,這可能導致性能比HyperWrite的“內部API”版本差。

Artificial Analysis在隨後的聲明中表示,他們獲得了對私有API的訪問權限,並看到了令人印象深刻的性能,但並沒有達到最初的聲明水平。由於這次測試是在私有API上進行的,他們無法獨立驗證他們正在測試的內容。

該組織提出了兩個關鍵問題,嚴重質疑HyperWrite和Shumer最初的性能聲明:

  • 爲什麼發佈的版本不是他們通過Reflection私有API測試的版本。
  • 爲什麼他們測試的版本的模型權重尚未發佈。

同時,Reddit上的多個機器學習和AI社區的用戶也對Reflection70B的聲明性能和起源提出了質疑。一些人指出,根據第三方在Github上發佈的模型比較,Reflection70B似乎是Llama3的變體,而不是Llama-3.1的變體,這進一步對Shumer和HyperWrite最初的聲明產生了懷疑。

這導致至少有一位X用戶Shin Megami Boson在9月8日東

image.png

部時間晚上8:07公開指控Shumer在AI研究社區中存在“欺詐行爲”,併發布了一長串截圖和其他證據。

其他人則指控該模型實際上是構建在專有/封閉源代碼的競爭對手Anthropic的Claude3之上的“包裝器”或應用程序。

然而,也有其他X用戶站出來爲Shumer和Reflection70B辯護,一些人也發佈了他們端的模型的印象深刻的性能。

目前,AI研究社區正在等待Shumer對這些欺詐指控的迴應和Hugging Face上的更新模型權重。

🚀 Reflection70B 模型發佈後,性能受到質疑,測試結果未能復現初期聲稱的表現。

⚙️ HyperWrite 創始人解釋稱模型上傳問題導致性能下降,呼籲關注更新版本。

👥 社交媒體上對該模型的討論熱烈,既有指責也有辯護,形勢錯綜複雜。