在一篇聚焦醫療AI評測的研究論文中,微軟似乎再次"不經意"地披露了業界多個頂級大語言模型的參數規模。這份發佈於12月26日的論文不僅揭示了包括OpenAI、Anthropic在內的多家公司的模型參數數據,還引發了業內對模型架構和技術實力的熱議。

根據論文披露,OpenAI的o1-preview模型約有300B參數,GPT-4o約200B,而GPT-4o-mini僅有8B參數。這與英偉達今年初公佈的GPT-4採用1.76T MoE架構的說法形成鮮明對比。同時,論文還透露了Claude3.5Sonnet的參數規模約爲175B。

image.png

這已經不是微軟第一次在論文中"泄露"模型參數信息。去年10月,微軟曾在一篇論文中披露GPT-3.5-Turbo的20B參數規模,隨後又在更新版本中刪除了這一信息。這種反覆出現的"泄露"讓業內人士對其是否存在某種特定意圖產生猜測。

image.png

值得注意的是,這篇論文的主要目的是介紹一個名爲MEDEC的醫療領域基準測試。研究團隊分析了來自三家美國醫院的488份臨牀筆記,評估了各大模型在識別和糾正醫療文檔錯誤方面的能力。測試結果顯示,Claude3.5Sonnet在錯誤檢測方面以70.16的得分領先其他模型。

image.png

業內對這些數據的真實性展開了熱烈討論。有觀點認爲,如果Claude3.5Sonnet確實以更小的參數量達到優秀性能,這將凸顯Anthropic的技術實力。也有分析人士通過模型定價反推,認爲部分參數估計具有合理性。

image.png

特別引人注意的是,論文僅對主流模型參數進行估計,卻獨獨沒有提及谷歌Gemini的具體參數。有分析認爲,這可能與Gemini使用TPU而非英偉達GPU有關,導致難以通過token生成速度進行準確估算。

image.png

隨着OpenAI逐漸淡化開源承諾,模型參數等核心信息可能會繼續成爲業界持續關注的焦點。這場意外泄露再次引發了人們對AI模型架構、技術路線以及商業競爭的深入思考。

參考資料:

https://arxiv.org/pdf/2412.19260

https://x.com/Yuchenj_UW/status/1874507299303379428

https://www.reddit.com/r/LocalLLaMA/comments/1f1vpyt/why_gpt_4o_mini_is_probably_around_8b_active/