近期,國產大模型DeepSeek V3在AI競技場的優異表現引發業界關注。作爲唯一闖入前十的開源模型,它不僅超越了o1-mini,在編程、數學等多個領域甚至超過了Claude3.5Sonnet。爲驗證其實際能力,多方展開了一系列實測對比。

image.png

在基礎理解能力測試中,兩個模型展現出不同特點。面對中文腦筋急轉彎"小明的媽媽有三個孩子"的問題,DeepSeek V3表現出色,不僅答對還進行了自我驗證。但在英文雙關語"April Fool's Day"的測試中則略顯不足,未能理解其中的語言巧思,而Claude3.5Sonnet則輕鬆應對。

image.png

邏輯推理測試也揭示了有趣的結果。在面對"弱智吧"經典邏輯陷阱時,兩個模型都出現了誤判。不過在"反轉詛咒"類問題上,雙方都展現出了優秀的推理能力,成功識別出湯姆·克魯斯與其母親的關係。

image.png

在考研數學題的較量中,DeepSeek V3展現出了更強的數學能力。它不僅能夠詳細解析曲面積分和高斯定理的應用,還成功得出正確答案。相比之下,Claude3.5Sonnet雖然思路清晰,但最終計算結果有誤。

image.png

編程能力的對比中,DeepSeek V3在網站創建測試中完勝對手。這一結果印證了其在競技場排名中的出色表現。

值得一提的是,隨着滿血版o1的加入,AI競技場格局再起變化。o1以絕對優勢登頂榜首,除創意寫作外,幾乎包攬了所有單項第一

image.png

這一系列測試表明,中國自研大模型正在快速追趕國際領先水平。DeepSeek V3的表現證明,在特定領域它已經具備了與頂級模型抗衡的實力,爲國產AI技術發展注入了新的信心。