長文の不安からさようなら：小紅書 RedKnot リアソンエンジンを開発者向けに公開長い文脈処理の効率が2倍に

生成AIの応用シーンにおいて、長文を処理する際にはモデルが高速かつ省電力であることを保証することが常にエンジニアたちの課題でした。最近、小紅書の技術チームは自社開発したRedKnot推論エンジンをオープンソース化し、長文タスクに対して「コスト削減と効率向上」の新しい解決策を提供しました。

RedKnotの中心的な革新点は、従来のKVキャッシュ（キー値キャッシュ）処理方式を打ち破ったことです。これまで大規模モデルは推論中にトークン（語彙単位）ごとにキャッシュを保存していましたが、これにより長文処理時にメモリ使用量が線形に増加し、推論速度と並列処理能力に大きな悪影響を与えました。RedKnotはこの問題に対して別路線を取り、KVキャッシュをアテンションヘッド（注目ヘッド）の次元に沿って分割し、「ヘッダー分類スパース」「スパースFFN」と「SegPagedAttention」の3つのメカニズムを導入することで、アルゴリズムロジックとストレージの粒度を統一させました。

このアーキテクチャの変更によって得られた性能向上は非常に顕著です。実験データによると、8枚のH800GPUで構成された高性能計算環境において、RedKnotは最初の文字生成時間（TTFT）を1.6倍から3.54倍まで加速し、単カードの並列処理能力は4.7倍から7.8倍まで向上します。プリフィルの段階では、計算リソースの消費（FLOPs）は67％から79.5％減少します。DeepSeek-V4-Flashモデルを例にすると、128Kの超長文タスクにおいて、最初の文字生成速度は5.16倍に向上し、KVデータの送信効率も6.3倍改善され、推論精度は依然として安定しており、密なモデル性能の95％以上を維持しています。

業界の専門家は、RedKnotのオープンソース化が推論エンジンの工学的最適化にとって重要な参考となると考えています。計算リソースがますます不足している中、このような長文推論の負担を軽減するための下部構造の詳細な分解というアイデアは、より軽量で効率的なAI推論システムの構築に新たな技術的道を開くものです。現在、関連コードは正式にオープンソース化されており、長文AIアプリケーションの普及と実装を促進することを目的としています。

米国がプライバシーポリシーを改正：10年間で10億ドルを拠出してAI企業による健康データの販売を禁止する方針

米上院議員ウォーレン氏と下院議員スキャンロン氏が生成AIを規制対象に含む改正「健康・位置情報保護法案」を提出。AI企業やデータブローカーによる機密医療データの販売を禁止。テック企業の医療分野参入が生むプライバシーリスクに対応。マスク氏らによるMRI等のデータ提供呼び掛けが懸念の背景。....

ノルウェーが制限政策を発表：一般的には6歳から13歳の小学生による生成型AIの使用を禁止する

ノルウェーのストーレ首相は、学習への悪影響を防ぐため、学校での生成AI利用を段階的に制限すると発表。6～13歳の小学校では原則全面禁止、14～16歳の中学校では教師の厳重な監督下で慎重使用、17～19歳の高校では条件付き使用に移行。....

長文の不安からさようなら：小紅書 RedKnot リアソンエンジンを開発者向けに公開長い文脈処理の効率が2倍に

関連推奨

グーグルがGemini APIの無料枠を全面的に拡充：一部のモデルの分当たり処理量が百万レベルに急増

米国がプライバシーポリシーを改正：10年間で10億ドルを拠出してAI企業による健康データの販売を禁止する方針

計算リソースの不足：グーグルがGeminiモデルの呼び出しを制限、Metaの開発進捗が妨げられる

ノルウェーが制限政策を発表：一般的には6歳から13歳の小学生による生成型AIの使用を禁止する

ビジュアルエクスプレイのAI接続：Getty ImagesとOpenAIが戦略的ライセンス協定を締結

長文の不安からさようなら：小紅書 RedKnot リアソンエンジンを開発者向けに公開 長い文脈処理の効率が2倍に

関連推奨

グーグルがGemini APIの無料枠を全面的に拡充：一部のモデルの分当たり処理量が百万レベルに急増

米国がプライバシーポリシーを改正：10年間で10億ドルを拠出してAI企業による健康データの販売を禁止する方針

計算リソースの不足：グーグルがGeminiモデルの呼び出しを制限、Metaの開発進捗が妨げられる

ノルウェーが制限政策を発表：一般的には6歳から13歳の小学生による生成型AIの使用を禁止する

ビジュアルエクスプレイのAI接続：Getty ImagesとOpenAIが戦略的ライセンス協定を締結

長文の不安からさようなら：小紅書 RedKnot リアソンエンジンを開発者向けに公開長い文脈処理の効率が2倍に