生成AIの応用シーンにおいて、長文を処理する際にはモデルが高速かつ省電力であることを保証することが常にエンジニアたちの課題でした。最近、小紅書の技術チームは自社開発したRedKnot推論エンジンをオープンソース化し、長文タスクに対して「コスト削減と効率向上」の新しい解決策を提供しました。

RedKnotの中心的な革新点は、従来のKVキャッシュ(キー値キャッシュ)処理方式を打ち破ったことです。これまで大規模モデルは推論中にトークン(語彙単位)ごとにキャッシュを保存していましたが、これにより長文処理時にメモリ使用量が線形に増加し、推論速度と並列処理能力に大きな悪影響を与えました。RedKnotはこの問題に対して別路線を取り、KVキャッシュをアテンションヘッド(注目ヘッド)の次元に沿って分割し、「ヘッダー分類スパース」「スパースFFN」と「SegPagedAttention」の3つのメカニズムを導入することで、アルゴリズムロジックとストレージの粒度を統一させました。

このアーキテクチャの変更によって得られた性能向上は非常に顕著です。実験データによると、8枚のH800GPUで構成された高性能計算環境において、RedKnotは最初の文字生成時間(TTFT)を1.6倍から3.54倍まで加速し、単カードの並列処理能力は4.7倍から7.8倍まで向上します。プリフィルの段階では、計算リソースの消費(FLOPs)は67%から79.5%減少します。DeepSeek-V4-Flashモデルを例にすると、128Kの超長文タスクにおいて、最初の文字生成速度は5.16倍に向上し、KVデータの送信効率も6.3倍改善され、推論精度は依然として安定しており、密なモデル性能の95%以上を維持しています。

業界の専門家は、RedKnotのオープンソース化が推論エンジンの工学的最適化にとって重要な参考となると考えています。計算リソースがますます不足している中、このような長文推論の負担を軽減するための下部構造の詳細な分解というアイデアは、より軽量で効率的なAI推論システムの構築に新たな技術的道を開くものです。現在、関連コードは正式にオープンソース化されており、長文AIアプリケーションの普及と実装を促進することを目的としています。