NVIDIA聯手Hugging Face推高效推理服務，AI 模型的Token 處理效率提升五倍

最近，開源平臺 Hugging Face 與 NVIDIA 宣佈了一項令人振奮的新服務 —— 推理即服務（Inference-as-a-Service），這項服務將由 NVIDIA 的 NIM 技術驅動。新服務的推出可以讓開發者們更快速地原型設計，使用 Hugging Face Hub 上提供的開源 AI 模型，並高效地進行部署。

這一消息是在正在舉行的 SIGGRAPH2024大會上公佈的。這個會議聚集了大量計算機圖形學和互動技術的專家，NVIDIA 與 Hugging Face 的合作正好在此時揭曉，爲開發者們帶來了新的機遇。通過這項服務，開發者能夠輕鬆部署強大的大語言模型（LLMs），例如 Llama2和 Mistral AI 模型，而 NVIDIA 的 NIM 微服務則爲這些模型提供了優化。

具體來說，當以 NIM 的形式訪問時，像70億參數的 Llama3模型，其處理速度比在標準的 NVIDIA H100Tensor Core GPU 系統上部署時高出五倍，這無疑是一個巨大的提升。此外，這項新服務還支持 “在 DGX Cloud 上訓練”（Train on DGX Cloud），這項服務目前已在 Hugging Face 上提供。

NVIDIA 的 NIM 是一套針對推理優化的 AI 微服務，涵蓋了 NVIDIA 的 AI 基礎模型和開源社區模型。它通過標準 API 顯著提高了 Token 處理效率，並增強了 NVIDIA DGX Cloud 的基礎設施，加速了 AI 應用的響應速度和穩定性。

NVIDIA DGX Cloud 平臺專門爲生成式 AI 量身定製，提供可靠且加速的計算基礎設施，幫助開發者從原型到生產的整個過程，而無需長期承諾。Hugging Face 與 NVIDIA 之間的合作將進一步鞏固開發者社區，而 Hugging Face 最近還宣佈其團隊已實現盈利，團隊規模達到220人，並推出了 SmolLM 系列小型語言模型。

劃重點:
🌟 Hugging Face 與 NVIDIA 推出推理即服務，提升 AI 模型的 Token 處理效率五倍。
🚀 新服務支持強大 LLM 模型的快速部署，優化了開發過程。
💡 NVIDIA DGX Cloud 平臺爲生成式 AI 提供加速基礎設施，簡化開發者的生產流程。

Moonshot AI發佈 Kimi Linear:線性注意力架構快6倍，開源 KDA 內核同步上線

國產團隊Moonshot AI發佈Kimi Linear架構技術報告，提出可替代完全注意力機制的混合線性架構。該架構在速度、內存效率和長上下文處理三方面實現突破，顯著降低KV緩存使用，兼具高效與性能優勢，被譽爲智能體時代注意力機制新起點。

NVIDIA 推出革命性 AI 數據中心設計助力高效能計算

在2025年GTC大會上，NVIDIA推出“Omniverse DSX Blueprint”設計方案，專爲吉瓦級AI數據中心打造，被稱爲“AI工廠”。該方案基於Omniverse框架，支持從1億瓦到10億瓦不同規模，旨在高效訓練和運行大型AI模型，滿足日益增長的AI計算需求，是人工智能基礎設施的重要進展。

全球首個真實物理環境多任務基準 RoboChallenge 發佈

RoboChallenge基準測試平臺正式發佈，由Dexmal原力靈機與Hugging Face聯合推出。作爲首個大規模、多任務、真實物理環境下的機器人操作評估標準，它解決了現有測試在真實性能驗證、標準化條件和公開可訪問性方面的難題，推動機器人視覺語言動作能力發展。

NVIDIA聯手Hugging Face推高效推理服務，AI 模型的Token 處理效率提升五倍

相關推薦

英偉達攜手三星建設人工智能工廠:5萬GPU驅動製造業未來

Moonshot AI發佈 Kimi Linear:線性注意力架構快6倍，開源 KDA 內核同步上線

NVIDIA 推出革命性 AI 數據中心設計助力高效能計算

全球首個真實物理環境多任務基準 RoboChallenge 發佈

DeepSeek突襲更新V3.2後緊急下架

NVIDIA聯手Hugging Face推高效推理服務，AI 模型的Token 處理效率提升五倍

相關推薦

英偉達攜手三星建設人工智能工廠:5萬GPU驅動製造業未來

Moonshot AI發佈 Kimi Linear:線性注意力架構快6倍，開源 KDA 內核同步上線

​NVIDIA 推出革命性 AI 數據中心設計 助力高效能計算

全球首個真實物理環境多任務基準 RoboChallenge 發佈

DeepSeek突襲更新V3.2後緊急下架

NVIDIA 推出革命性 AI 數據中心設計助力高效能計算