MITの研究チームは、最近、大規模言語モデル(LLM)の計算効率を向上させ、エネルギー消費を削減するための革新的な計算方法を発表しました。この技術は「インスタンス適応型スケーリング」と呼ばれ、質問の複雑さに応じて計算リソースを調整します。研究チームの関連論文は11月初旬に公開され、MIT-IBMワトソン人工知能研究所、MIT-Amazon科学センター、MIT-Google計算イノベーションプロジェクトおよびMathWorksの支援を受けています。

図の出典:画像はAIで生成され、画像ライセンスサービスはMidjourneyです。

従来の大規模言語モデルは、問題を処理する際に固定された推論プロセス報酬モデル(PRMs)を使用しており、これにより異なる複雑度の問題に対して計算リソースの利用効率が低く、成功確率を過大評価する傾向があります。MITの研究者たちは、PRMsを再設計し、異なる問題に応じて推論トレースの数を動的に調整できるようにしました。これにより、単純な問題には少ない計算リソースを使用し、複雑な問題にはより多くの推論サポートを得ることができます。

研究者らは、人の思考プロセスが複雑な問題を分解し、段階的に推論し、修正しながら進むものであることを指摘しています。LLMも同様に、推論中により「考える」時間が得られることで恩恵を受けることができます。研究結果によると、この新しい方法を採用したことで、計算リソースの使用量が半分に減少し、現行モデルと同等の精度を維持できました。さらに、再調整されたPRMsは、小さなLLMのパフォーマンス向上にも寄与しています。

この技術の成功を踏まえ、MITチームは今後、この方法が他の応用における性能をさらに探求する予定であり、コード生成や人工知能エージェントだけでなく、強化学習などの分野でのPRMの校正法のさらなる応用を計画しています。

ポイント:  

💡 研究チームが提案したインスタンス適応型スケーリング技術は、問題の複雑さに応じてLLMの計算リソースを動的に調整できます。

🔍 再設計された推論プロセス報酬モデルにより、計算リソースの利用効率が大幅に向上し、単純な問題では計算を減らし、複雑な問題ではより多くのサポートを得られます。

⚙️ 研究結果は、この方法が計算量を半分に削減しつつ、同じような精度を維持できることを示しており、今後、他の分野での応用可能性が期待されています。