在人工智能訓練領域,Nvidia 的顯卡地位幾乎無人能敵,但在 AI 推理方面,競爭對手們似乎開始迎頭趕上,尤其是在能效方面。儘管 Nvidia 最新的黑威爾芯片性能強勁,但能否繼續保持領先尚未可知。

今天,ML Commons 公佈了最新的 AI 推理競賽結果 ——MLPerf 推理 v4.1。這一輪比賽首次有 AMD 的 Instinct 加速器、谷歌的 Trillium 加速器、加拿大初創公司 UntetherAI 的芯片以及 Nvidia 的黑威爾芯片參賽。還有兩家公司 Cerebras 和 FuriosaAI 雖然推出了新的推理芯片,但並未提交 MLPerf 的測試。

image.png

MLPerf 的結構就像一場奧林匹克比賽,有多個項目和子項目。其中 “數據中心封閉” 類別的參賽者最多。與開放類別不同,封閉類別要求參賽者在不顯著修改軟件的情況下,直接在給定模型上進行推理。數據中心類別主要測試批量處理請求的能力,而邊緣類別則側重於降低延遲。

每個類別下有9個不同的基準測試,涵蓋各種 AI 任務,包括熱門的圖像生成(想想 Midjourney)和大型語言模型的問答(例如 ChatGPT),還有一些重要但鮮爲人知的任務,比如圖像分類、物體檢測和推薦引擎。

這一輪比賽增加了一個新基準 ——“專家混合模型”。這是一種越來越流行的語言模型部署方法,將一個語言模型分割成多個獨立的小模型,每個模型針對特定任務進行微調,例如日常對話、解決數學問題或編程輔助。通過將每個查詢分配給相應的小模型,資源利用得以減少,從而降低成本並提高吞吐量,AMD 的高級技術人員 Miroslav Hodak 如是說。

image.png

在熱門的 “數據中心封閉” 基準測試中,獲勝的仍然是基於 Nvidia H200GPU 和 GH200超級芯片的提交,它們將 GPU 和 CPU 結合在一個包中。然而,仔細分析結果會發現一些有趣的細節。某些參賽者使用了多個加速器,而另一些則只使用了一個。如果我們按加速器數量歸一化每秒查詢數,並保留每種加速器類型中表現最佳的提交,結果更加撲朔迷離。需要指出的是,這種方法忽略了 CPU 和互連的作用。

在每個加速器的基礎上,Nvidia 的黑威爾在大型語言模型問答任務上表現優異,速度比之前的芯片迭代提升了2.5倍,這是唯一一個它提交的基準測試。Untether AI 的 speedAI240預覽芯片在其唯一提交的圖像識別任務上表現幾乎與 H200持平。谷歌的 Trillium 在圖像生成任務上表現略低於 H100和 H200,而 AMD 的 Instinct 在大型語言模型問答任務上則表現相當於 H100。

黑威爾的成功部分源於它能夠使用4位浮點精度進行大型語言模型的運行。Nvidia 和競爭對手們一直在努力降低變換模型(例如 ChatGPT)中數據表示的位數,以加快計算速度。Nvidia 在 H100中引入了8位數學,而這次的提交則是4位數學在 MLPerf 基準測試中的首次展示。

使用如此低精度數字的最大挑戰在於保持準確性,Nvidia 的產品營銷總監 Dave Salvator 表示。爲了在 MLPerf 提交中維持高準確率,Nvidia 團隊在軟件方面進行了大量創新。

此外,黑威爾的內存帶寬幾乎翻倍,達到了每秒8太字節,而 H200則是4.8太字節。

Nvidia 的黑威爾提交使用了單個芯片,但 Salvator 表示它設計用於網絡和擴展,並將在與 Nvidia 的 NVLink 互連結合使用時表現最佳。黑威爾 GPU 支持多達18個 NVLink100GB 每秒的連接,總帶寬達到1.8太字節每秒,幾乎是 H100的互連帶寬的兩倍。

image.png

Salvator 認爲,隨着大型語言模型的規模不斷擴大,即使是推理也將需要多 GPU 平臺來滿足需求,而黑威爾正是爲這種情況而設計的。“黑威爾是一個平臺,”Salvator 說。

Nvidia 將其黑威爾芯片系統提交到預覽子類別,意味着它尚未上市,但預計在下次 MLPerf 發佈前會可用,大約在六個月後。

在每個基準測試中,MLPerf 還包括能量測量部分,系統地測試每個系統在執行任務時的實際功耗。這一輪的主要比賽(數據中心封閉能量類別)僅有 Nvidia 和 Untether AI 兩家提交者參與。雖然 Nvidia 參與了所有基準測試,但 Untether 只在圖像識別任務中提交了結果。

image.png

Untether AI 在這方面表現出色,成功實現了卓越的能效。他們的芯片採用了一種名爲 “內存計算” 的方法。Untether AI 的芯片是由一組內存單元構成,附近有小型處理器與之相鄰。每個處理器並行工作,與鄰近的內存單元中的數據同時處理,從而顯著減少了在內存和計算核心之間傳輸模型數據所花費的時間和能量。

“我們發現,進行 AI 工作負載時,90% 的能量消耗在於將數據從 DRAM 移動到緩存處理單元,”Untether AI 的產品副總裁 Robert Beachler 表示。“因此,Untether 的做法是將計算移動到數據附近,而不是將數據移動到計算單元。”

這一方法在 MLPerf 的另一個子類別中表現尤爲出色:邊緣封閉。這一類別專注於更爲實際的用例,比如工廠的機器檢測、引導視覺機器人和自動駕駛車輛 —— 這些應用對能效和快速處理有着嚴格的要求,Beachler 解釋道。

在圖像識別任務中,Untether AI 的 speedAI240預覽芯片的延遲性能比 Nvidia 的 L40S 快了2.8倍,吞吐量(每秒樣本數)也提高了1.6倍。初創公司還在這個類別中提交了功耗結果,但 Nvidia 的競爭者並沒有,因此很難進行直接比較。然而,Untether AI 的 speedAI240預覽芯片的標稱功耗爲150瓦,而 Nvidia 的 L40S 則爲350瓦,顯示出其在功耗方面具有2.3倍的優勢,同時延遲表現也更佳。

雖然 Cerebras 和 Furiosa 沒有參加 MLPerf,但它們也分別發佈了新芯片。Cerebras 在斯坦福大學的 IEEE Hot Chips 會議上揭曉了其推理服務。總部位於加利福尼亞州陽光谷的 Cerebras 製造的巨型芯片,尺寸大到硅晶圓所允許的極限,從而避免了芯片之間的互連,並極大提高了設備的內存帶寬,主要用於訓練巨型神經網絡。現在,他們已經升級了最新的計算機 CS3以支持推理。

儘管 Cerebras 沒有提交 MLPerf,但該公司聲稱其平臺在每秒生成的 LLM 令牌數量上超越了 H100的7倍和競爭對手 Groq 芯片的2倍。“今天,我們處於生成 AI 的撥號時代,”Cerebras 首席執行官兼聯合創始人 Andrew Feldman 表示。“這都是因爲存在內存帶寬瓶頸。無論是 Nvidia 的 H100還是 AMD 的 MI300或 TPU,它們都使用相同的外部內存,導致相同的限制。我們打破了這一障礙,因爲我們採用的是晶圓級設計。”

Hot Chips 大會上,來自首爾的 Furiosa 也展示了其第二代芯片 RNGD(發音爲 “叛逆者”)。Furiosa 的新芯片以其張量收縮處理器(TCP)架構爲特點。在 AI 工作負載中,基本的數學功能是矩陣乘法,通常在硬件中作爲一個原語實現。然而,矩陣的大小和形狀,即更廣泛的張量,可以有很大的不同。RNGD 實現了這種更爲通用的張量乘法作爲原語。“在推理過程中,批量大小變化很大,因此充分利用給定張量形狀的固有並行性和數據重用至關重要,”Furiosa 創始人兼首席執行官 June Paik 在 Hot Chips 上表示。

儘管 Furiosa 沒有 MLPerf,但他們在內部測試中將 RNGD 芯片與 MLPerf 的 LLM 摘要基準進行了比較,結果表現與 Nvidia 的 L40S 芯片相當,但功耗僅爲185瓦,而 L40S 則爲320瓦。Paik 表示,隨着進一步的軟件優化,性能將會提升。

IBM 也宣佈推出其新的 Spyre 芯片,專爲企業生成 AI 工作負載而設計,預計將在2025年第一季度上市。

顯然,AI 推理芯片市場在可預見的未來將會熱鬧非凡。

參考資料:https://spectrum.ieee.org/new-inference-chips