性能 AI 計算領域的先驅 Cerebras Systems 推出了一種開創性的解決方案,該解決方案將徹底改變 AI 推理。2024年8月27日,該公司宣佈推出 Cerebras Inference,這是世界上最快的 AI 推理服務。Cerebras Inference 的性能指標使基於 GPU 的傳統系統相形見絀,以極低的成本提供20倍的速度,爲 AI 計算樹立了新的標杆。

image.png

Cerebras推理特別適合處理各類 AI 模型,尤其是快速發展的 “大語言模型”(LLMs)。以最新的 Llama3.1模型爲例,其8B 版本每秒可以處理1800個 token,而70B 版本則爲450個 token。這一速度不僅是 NVIDIA GPU 解決方案的20倍,而且價格也更具競爭力。Cerebras Inference的定價起步僅爲每百萬個 token10美分,70B 版本則爲60美分,相較於現有 GPU 產品,性價比提升了100倍。

令人印象深刻的是,Cerebras Inference在保持行業領先準確度的同時,實現了這樣的速度。與其他以速度爲先的方案不同,Cerebras 始終保持在16位數域內進行推理,確保性能提升不會以犧牲 AI 模型輸出質量爲代價。人工分析公司的首席執行官米哈・希爾 - 史密斯表示,Cerebras 在 Meta 的 Llama3.1模型上達到了超越1,800個輸出 token 每秒的速度,創造了新記錄。

image.png

AI 推理是 AI 計算中增長最快的部分,約佔整個 AI 硬件市場的40%。高速度的 AI 推理,如Cerebras 所提供的,猶如寬帶互聯網的出現,打開了新的機會,爲 AI 應用迎來了新紀元。開發者們可以藉助Cerebras Inference來構建需要複雜實時性能的下一代 AI 應用,如智能代理和智能系統。

Cerebras Inference提供了三個定價合理的服務層次:免費層、開發者層和企業層。免費層提供 API 訪問,使用限制慷慨,非常適合廣泛用戶。開發者層則提供靈活的無服務器部署選項,企業層則針對持續負載的組織提供定製服務和支持。

核心技術上,Cerebras Inference採用的是Cerebras CS-3系統,由業界領先的 Wafer Scale Engine3(WSE-3)驅動。這個 AI 處理器在規模和速度上都無與倫比,提供了比 NVIDIA H100多7000倍的內存帶寬。

Cerebras Systems 不僅在 AI 計算領域中引領潮流,還在醫療、能源、政府、科學計算和金融服務等多個行業中扮演着重要角色。通過不斷推進技術創新,Cerebras 正在幫助各個領域的組織應對複雜的 AI 挑戰。

劃重點:

🌟  Cerebras Systems 服務速度提升20倍,價格更具競爭力,開啓 AI 推理新紀元。

💡 支持各類 AI 模型,特別是在大語言模型(LLMs)上表現卓越。

🚀 提供三種服務層次,方便開發者和企業用戶靈活選擇。