微軟論文再曝OpenAI模型參數？醫療AI評測意外暴露4o-mini只有8B

在一篇聚焦醫療AI評測的研究論文中，微軟似乎再次"不經意"地披露了業界多個頂級大語言模型的參數規模。這份發佈於12月26日的論文不僅揭示了包括OpenAI、Anthropic在內的多家公司的模型參數數據，還引發了業內對模型架構和技術實力的熱議。

根據論文披露，OpenAI的o1-preview模型約有300B參數，GPT-4o約200B，而GPT-4o-mini僅有8B參數。這與英偉達今年初公佈的GPT-4採用1.76T MoE架構的說法形成鮮明對比。同時，論文還透露了Claude3.5Sonnet的參數規模約爲175B。

這已經不是微軟第一次在論文中"泄露"模型參數信息。去年10月，微軟曾在一篇論文中披露GPT-3.5-Turbo的20B參數規模，隨後又在更新版本中刪除了這一信息。這種反覆出現的"泄露"讓業內人士對其是否存在某種特定意圖產生猜測。

值得注意的是，這篇論文的主要目的是介紹一個名爲MEDEC的醫療領域基準測試。研究團隊分析了來自三家美國醫院的488份臨牀筆記，評估了各大模型在識別和糾正醫療文檔錯誤方面的能力。測試結果顯示，Claude3.5Sonnet在錯誤檢測方面以70.16的得分領先其他模型。

業內對這些數據的真實性展開了熱烈討論。有觀點認爲，如果Claude3.5Sonnet確實以更小的參數量達到優秀性能，這將凸顯Anthropic的技術實力。也有分析人士通過模型定價反推，認爲部分參數估計具有合理性。

特別引人注意的是，論文僅對主流模型參數進行估計，卻獨獨沒有提及谷歌Gemini的具體參數。有分析認爲，這可能與Gemini使用TPU而非英偉達GPU有關，導致難以通過token生成速度進行準確估算。

隨着OpenAI逐漸淡化開源承諾，模型參數等核心信息可能會繼續成爲業界持續關注的焦點。這場意外泄露再次引發了人們對AI模型架構、技術路線以及商業競爭的深入思考。

參考資料:

https://arxiv.org/pdf/2412.19260

https://x.com/Yuchenj_UW/status/1874507299303379428

https://www.reddit.com/r/LocalLLaMA/comments/1f1vpyt/why_gpt_4o_mini_is_probably_around_8b_active/

微軟CEO親自出馬：微軟 Copilot 整合效果不佳，急需整改