微軟近日宣佈,其 Azure ND GB300v6虛擬機在 Meta 的 Llama270B 模型上實現了每秒推理速度達110萬token的行業新紀錄。微軟首席執行官薩提亞・納德拉在社交媒體上表示:“這一成就是我們與英偉達長期合作和在生產規模運行人工智能方面專業知識的結晶。”

Azure ND GB300虛擬機採用英偉達的 Blackwell Ultra GPU,具體爲 NVIDIA GB300NVL72系統,配置了72個 NVIDIA Blackwell Ultra GPU 和36個 NVIDIA Grace CPU,採用單機架構設計。這款虛擬機專爲推理工作負載優化,具有50% 的 GPU 內存提升和16% 的熱設計功率(TDP)提高。
爲了驗證性能提升,微軟在一個 NVIDIA GB300NVL72域下的18臺 ND GB300v6虛擬機上運行了 Llama270B(FP4精度)模型,使用 NVIDIA TensorRT-LLM 作爲推理引擎。微軟表示:“一個 NVL72機架的 Azure ND GB300v6實現了總計110萬個token每秒的推理速度。” 這一新記錄超越了微軟之前在 NVIDIA GB200NVL72機架上實現的865,000token每秒的成績。
根據系統配置,每個 GPU 的性能大約爲15,200token每秒。微軟還提供了詳細的模擬過程和所有日誌文件及結果。該性能記錄經過了獨立的性能驗證和基準測試公司 Signal65的驗證。
Signal65的實驗室副總裁拉斯・費洛斯在博客中指出:“這一里程碑不僅突破了每秒百萬token的障礙,還在一個能夠滿足現代企業動態使用和數據治理需求的平臺上實現。” 他補充道,Azure ND GB300相較於上一代 NVIDIA GB200在推理性能上提升了27%,而僅增加了17% 的功率規格。與 NVIDIA H100代相比,GB300在推理性能上幾乎提升了10倍,同時在機架級別的功率效率上提高了近2.5倍。
劃重點:
🚀 微軟 Azure ND GB300v6虛擬機實現每秒推理110萬token,創造行業新紀錄。
💻 該虛擬機配置72個 NVIDIA Blackwell Ultra GPU 和36個 NVIDIA Grace CPU,專爲推理優化。
📈 相比上一代,Azure ND GB300在推理性能上提升27%,功率效率提升近2.5倍。
