在生成式人工智能的應用場景中,如何讓模型在處理超長文本時既快又省,一直是工程師們攻克的難題。近日,小紅書技術團隊開源了其自主研發的 RedKnot 推理引擎,帶來了一套針對長上下文任務的“降本增效”新方案。
RedKnot 的核心創新在於打破了傳統的 KV Cache(鍵值緩存)處理模式。以往,大模型在推理過程中,緩存是按 token(詞元)維度存儲的,這導致在處理長文本時,內存開銷呈線性增長,極大地拖累了推理速度與併發能力。RedKnot 另闢蹊徑,將 KV Cache 沿注意力頭(Attention Head)維度進行拆解,並引入了“頭分類稀疏”、“稀疏 FFN”以及“SegPagedAttention”三大機制,實現了算法邏輯與存儲粒度的統一。
這一架構調整帶來的性能提升十分顯著。實測數據顯示,在 8 卡 H800 的高性能計算環境下,RedKnot 能夠將首字生成時間(TTFT)加速 1.6 倍至 3.54 倍,單卡併發能力更是提升了 4.7 倍至 7.8 倍。在預填充階段,計算資源消耗(FLOPs)被削減了 67% 至 79.5%。以 DeepSeek-V4-Flash 模型在 128K 超長上下文任務上的表現爲例,其首字生成速度提升了 5.16 倍,KV 數據傳輸效率也優化了 6.3 倍,且推理精度依然穩健,保持在稠密模型性能的 95% 以上。
業內專家認爲,RedKnot 的開源爲推理引擎的工程優化提供了重要參考。在算力資源日益緊缺的背景下,這種通過底層架構精細化拆解來緩解長文本推理負擔的思路,無疑爲構建更輕量、更高效的 AI 推理系統開闢了新的技術路徑。目前,相關代碼已正式開源,旨在推動長文本 AI 應用的普及與落地。
