近日,科技分析機構 SemiAnalysis 發佈了一項爲期五個月的調查報告,揭示了 AMD 最新推出的 MI300X AI 芯片在軟件方面存在重大問題,導致其無法發揮應有的性能,因而在 AI 芯片市場中無法挑戰 Nvidia 的主導地位。
圖源備註:圖片由AI生成,圖片授權服務商Midjourney
報告指出,AMD 的軟件存在大量漏洞,導致 AI 模型訓練幾乎不可能,用戶需要耗費大量時間進行調試。與此同時,Nvidia 持續推出新的功能、庫以及性能更新,進一步擴大了兩者之間的差距。分析人員進行了大量測試,包括 GEMM 基準測試和單節點訓練,結果顯示 AMD 始終無法克服所謂的 “CUDA 護城河”—— 即 Nvidia 在軟件方面的強大優勢。
從硬件規格上看,MI300X 的性能數據相當搶眼,FP16計算能力達到1307TeraFLOPS,配備192GB 的 HBM3內存。而相比之下,Nvidia 的 H100爲989TeraFLOPS 和80GB 內存,儘管 Nvidia 最新的 H200在內存方面縮小了這一差距,提供了141GB 的配置。值得一提的是,AMD 系統在總擁有成本方面具有優勢,價格更低且以太網網絡更爲實惠。
然而,這些硬件優勢在實際使用中並未帶來應有的效果。SemiAnalysis 將這種現象形容爲 “僅通過像素數量來比較相機”,暗示 AMD 在數字遊戲中迷失,而未能提供足夠的實際性能。爲了獲得可用的基準結果,分析師不得不與 AMD 工程師直接合作,解決了多個軟件漏洞,反觀 Nvidia 的系統則可以直接使用,無需額外調整。
報告中還提到,AMD 最大的 GPU 雲服務提供商 Tensorwave 甚至不得不向 AMD 團隊免費提供自己購買的 GPU,以幫助解決軟件問題。爲此,SemiAnalysis 建議 AMD 首席執行官蘇姿豐需要加大對軟件開發和測試的投資,尤其是分配大量 MI300X 芯片進行自動化測試,簡化複雜的環境變量,並改善默認設置,以提升出廠體驗。
儘管 SemiAnalysis 希望 AMD 能成爲 Nvidia 的有力競爭者,但他們也表示 “可惜還有很多工作要做”。如果不對軟件進行重大改進,AMD 將面臨進一步落後的風險,尤其是在 Nvidia 準備推出下一代 Blackwell 芯片的情況下,儘管也有報告指出 Nvidia 的下一代產品推出並非一帆風順。
劃重點:
🌟 AMD MI300X AI 芯片面臨嚴重的軟件問題,導致 AI 模型訓練變得困難。
🔧 Nvidia 憑藉強大的 CUDA 平臺不斷擴展市場優勢,軟件更新頻繁。
💡 SemiAnalysis 建議 AMD 加大軟件開發投資,改善用戶體驗以提升競爭力。