紅帽公司近期正式推出了紅帽 AI 推理服務器(Red Hat AI Inference Server),這款服務器旨在爲混合雲環境提供更加高效和經濟的 AI 推理服務。通過採用先進的 vLLM 技術,並結合 Neural Magic 的創新能力,紅帽希望爲用戶帶來更快的響應速度和更優越的性能。

image.png

紅帽 AI 推理服務器是一款專爲高性能設計的開放推理解決方案,配備了一系列先進的模型壓縮與優化工具。它的設計理念是將 vLLM 的前沿創新與紅帽的企業級能力相結合,以便爲用戶提供靈活的部署選項。用戶可以選擇將其作爲獨立的容器化產品使用,或者將其與紅帽企業 Linux(RHEL AI)和紅帽 OpenShift AI 集成。

在各種部署環境中,紅帽 AI 推理服務器能夠向用戶提供經過加固的 vLLM 發行版。其主要功能包括智能 LLM 壓縮工具,可以顯著縮減基礎 AI 模型與微調 AI 模型的大小,同時在保持模型準確性的前提下,儘量降低計算資源的消耗。此外,紅帽還提供了一個優化的模型存儲庫,該存儲庫託管在紅帽 AI 組織的 Hugging Face 中,用戶可以即時訪問經過驗證的 AI 模型。這些模型經過優化後,能夠在推理部署中提升效率,效率提升可達到2到4倍,並且不會影響模型的準確性。

紅帽爲用戶提供了強大的企業支持,這種支持基於公司多年來在將社區項目推向生產環境方面的豐富經驗。與此同時,紅帽 AI 推理服務器還支持在非紅帽 Linux 和 Kubernetes 平臺上的靈活部署,幫助用戶在選擇部署環境時獲得更大的選擇空間。

紅帽 AI 業務部門副總裁 Joe Fernandes 表示:“推理是生成式 AI 的核心價值所在,它使得模型在用戶互動時能夠快速給出準確的回覆。我們的目標是以高效和經濟的方式滿足大規模的推理需求。” 紅帽 AI 推理服務器的推出,將爲用戶提供一個通用的推理層,支持在各種環境中運行不同模型的加速。

劃重點:

🚀 紅帽 AI 推理服務器結合 vLLM 和 Neural Magic 技術,爲混合雲環境提供高效推理服務。  

📉 具備智能 LLM 壓縮工具和優化模型存儲庫,能有效提升推理效率2-4倍。  

🛠️ 提供企業級支持與靈活部署選項,適應多種操作系統與平臺。