最近,開源平臺 Hugging Face 與 NVIDIA 宣佈了一項令人振奮的新服務 —— 推理即服務(Inference-as-a-Service),這項服務將由 NVIDIA 的 NIM 技術驅動。新服務的推出可以讓開發者們更快速地原型設計,使用 Hugging Face Hub 上提供的開源 AI 模型,並高效地進行部署。

這一消息是在正在舉行的 SIGGRAPH2024大會上公佈的。這個會議聚集了大量計算機圖形學和互動技術的專家,NVIDIA 與 Hugging Face 的合作正好在此時揭曉,爲開發者們帶來了新的機遇。通過這項服務,開發者能夠輕鬆部署強大的大語言模型(LLMs),例如 Llama2和 Mistral AI 模型,而 NVIDIA 的 NIM 微服務則爲這些模型提供了優化。
具體來說,當以 NIM 的形式訪問時,像70億參數的 Llama3模型,其處理速度比在標準的 NVIDIA H100Tensor Core GPU 系統上部署時高出五倍,這無疑是一個巨大的提升。此外,這項新服務還支持 “在 DGX Cloud 上訓練”(Train on DGX Cloud),這項服務目前已在 Hugging Face 上提供。
NVIDIA 的 NIM 是一套針對推理優化的 AI 微服務,涵蓋了 NVIDIA 的 AI 基礎模型和開源社區模型。它通過標準 API 顯著提高了 Token 處理效率,並增強了 NVIDIA DGX Cloud 的基礎設施,加速了 AI 應用的響應速度和穩定性。
NVIDIA DGX Cloud 平臺專門爲生成式 AI 量身定製,提供可靠且加速的計算基礎設施,幫助開發者從原型到生產的整個過程,而無需長期承諾。Hugging Face 與 NVIDIA 之間的合作將進一步鞏固開發者社區,而 Hugging Face 最近還宣佈其團隊已實現盈利,團隊規模達到220人,並推出了 SmolLM 系列小型語言模型。
劃重點:
🌟 Hugging Face 與 NVIDIA 推出推理即服務,提升 AI 模型的 Token 處理效率五倍。
🚀 新服務支持強大 LLM 模型的快速部署,優化了開發過程。
💡 NVIDIA DGX Cloud 平臺爲生成式 AI 提供加速基礎設施,簡化開發者的生產流程。
