最近、Meta AI はカリフォルニア大学サンディエゴ校(UCSD)と共同で、Deep Think with Confidence(DeepConf) という新技術を発表しました。この技術は、大規模言語モデル(LLM)の複雑な推論タスクにおいて、計算リソースコストを効果的に削減しながらも高い正確性を維持することを目的としています。

image.png

現在、LLMの推論能力を向上させる方法として、「自一致性 + 複数回のサンプリングと投票」の戦略が一般的ですが、この方法は計算リソースを急速に膨張させ、時間がかかり、低品質な推論経路が誤答を生む可能性があります。DeepConfの革新点は、すべての推論経路を平等に扱うのではなく、モデル内の信頼度信号を用いて推論経路を選別・重み付けする点です。

DeepConfでは、以下の多様な信頼度指標を導入しています:

  • グループ信頼度(Group Confidence): 推論プロセス中の特定のトークンの平均信頼度を計算します。

  • テール信頼度(Tail Confidence): 推論の終盤部分の信頼度に注目します。

  • 最低グループ信頼度(Lowest Group Confidence): 推論経路の中で最も「弱い」部分を見つけます。

  • ボトム10%信頼度(Bottom-10% Confidence): 最も信頼度が低い推論内容に焦点を当てます。

DeepConfには2つの実行モードがあります:

  1. オフラインモード(Offline Thinking): まず複数の完全な推論経路を生成し、信頼度に基づいて優れた経路を選んで投票や加重投票を行います。

  2. オンラインモード(Online Thinking): 推論生成中にリアルタイムで評価を行い、現在の経路の信頼度がしきい値を下回った場合、すぐにその経路を中止してリソースを節約します。

さまざまなオープンモデル(DeepSeek-8B、Qwen3-32B、GPT-OSS-120B)および複雑な数学とSTEM推論タスク(AIME、HMMT、BRUMO25、GPQA-Diamond)において、DeepConfは驚くような結果を示しています:

  • オフラインモードでは、GPT-OSS-120Bを使用してAIME2025の正確さが99.9%84.7%

  • オンラインモードでは、AIME24においてDeepSeek-8Bの正確さが5.8ポイント77.9%も減少

企業は使用シーンやリスク許容度に応じて異なる設定を選択できます:

  • DeepConf-high(保守モード): 通常、生成コストを約50%

  • DeepConf-low(積極モード): トークンの使用量を70%〜85%

DeepConfを使用するには、モデルの再トレーニングは必要ありません。わずかな推論時のロジック処理を追加するだけで済みます。また、既存の推論フレームワーク(vLLM、SGLang、TensorRT-LLM)と互換性があり、シームレスに統合可能です。研究者によれば、これは現実的な企業でのLLM推論タスクのための「プラグアンドプレイ」可能な効率的なソリューションを提供します。

論文: https://arxiv.org/abs/2508.15260

要点:

  • 🧠 信頼度指向選択: DeepConfは、局所的な信頼度(グループ、テール、最小値など)に基づいて推論経路を選別または重み付けするため、一括多数決とは異なります。

  • 大幅な効率向上: 最高で99.9%の推論正確度を達成し、生成トークン数を最大で84.7%も削減できます。

  • ️🎛 調整可能な戦略モード: 企業はリスク許容度に応じて「高安全性」または「高効率」モードを選択でき、最小限のリソースで最適な結果を得られます。