IBM 發佈了 Granite4.0Tiny Preview,這是即將推出的 Granite4.0系列語言模型中最小的一款的預覽版本。該模型不僅具備高效的計算能力,還爲開源社區提供了一個值得關注的實驗平臺。
高效的性能與極小的內存需求
Granite4.0Tiny 在 FP8精度下,能夠在消費級硬件上運行多個長上下文(128K)的併發任務,適用於市面上價格低於350美元的 GPU。儘管該模型目前僅經過部分訓練,處理過2.5萬億個訓練標記,但其性能已接近 IBM Granite3.32B Instruct,且內存需求降低約72%。隨着後續訓練的進行,預計 Granite4.0Tiny 的性能將達到與 Granite3.38B Instruct 相當的水平。
全新的混合架構設計
Granite4.0系列語言模型採用了全新的混合 Mamba-2/Transformer 架構,結合了 Mamba 的速度與效率以及 Transformer 的自注意力精度。Granite4.0Tiny Preview 是一個細粒度的混合專家模型,具有70億個總參數,但在推理時僅激活10億個參數。這一創新的架構設計源自 IBM 研究與 Mamba 原始創造者的合作,提升了模型的整體性能。
無約束的上下文長度
Granite4.0的一個亮點是其理論上能夠處理無限長的序列。這一能力源自其不使用位置編碼(NoPE)的設計,有效避免了傳統模型在處理長上下文時的性能限制。測試表明,該模型在處理128K 個標記時表現良好,未來還將驗證其在更長上下文上的性能表現。
適合多種應用場景
Granite4.0Tiny 的內存效率和性能,使其成爲多個企業應用的理想選擇。IBM 計劃在未來幾個月內,進一步完善模型,並期待在即將召開的 IBM Think2025大會上分享更多信息。
IBM 的 Granite4.0Tiny Preview 不僅是對高效能語言模型的一次大膽嘗試,更是對開源社區的一次有力支持。隨着後續版本的推出,該模型有望爲開發者和企業用戶帶來更多可能性。
官方博客:https://www.ibm.com/new/announcements/ibm-granite-4-0-tiny-preview-sneak-peek