日本のAI企業Sakana AIは最近、Transformer²を発表しました。これは、言語モデルが様々なタスクに効率的に適応する革新的な手法です。既存のAIシステムとは異なり、Transformer²は2段階の学習プロセスを通じて、言語モデルが新しいタスクに直面した際に起こりがちな限界を克服します。これは、継続学習技術における大きな進歩を示しています。
現在のAIシステムは通常、一度の訓練で複数のタスクを処理しますが、新しいタスクに遭遇すると予期せぬ課題に直面しやすく、モデルの適応性が制限されます。Transformer²は、まさにこの問題に対処するために設計されており、専門家ベクトルと特異値微調整(SVF)技術を採用することで、ネットワーク全体を再訓練することなく、新しいタスクに柔軟に対応できます。
Transformer²は、従来の方法とは異なる訓練方法を採用しています。従来の訓練方法は、ニューラルネットワーク全体の重みを調整する必要があり、これはコストが高く、以前学習した知識を「忘却」してしまう可能性もあります。これに対し、SVF技術は、各ネットワーク接続の重要性を制御する専門家ベクトルを学習することで、これらの問題を回避します。専門家ベクトルは、ネットワーク接続の重み行列を調整することで、モデルが数学演算、プログラミング、論理推論など、特定のタスクに集中するのを支援します。
この手法により、モデルが新しいタスクに適応するために必要なパラメーター数が大幅に削減されます。例えば、LoRA法では682万個のパラメーターが必要ですが、SVFではわずか16万個のパラメーターで済みます。これは、メモリと処理能力の消費を削減するだけでなく、特定のタスクに集中することで他の知識を忘却するのを防ぎます。最も重要なのは、これらの専門家ベクトルが効果的に連携して働き、モデルの様々なタスクへの適応能力を高めることです。
適応性をさらに向上させるために、Transformer²は強化学習を導入しています。訓練中、モデルはタスクの解決策を提案し、フィードバックを得ることで、専門家ベクトルを継続的に最適化し、新しいタスクでのパフォーマンスを向上させます。チームは、これらの専門知識を適用するための3つの戦略を開発しました:適応プロンプト、タスク分類器、少サンプル適応。特に少サンプル適応戦略は、新しいタスクの例を分析し、専門家ベクトルを調整することで、モデルの柔軟性と精度をさらに向上させます。
複数のベンチマークテストにおいて、Transformer²は従来の方法であるLoRAを上回る性能を示しました。数学タスクでは、性能が16%向上し、必要なパラメーター数が大幅に削減されました。全く新しいタスクに直面した場合、Transformer²の精度は元のモデルよりも4%高く、LoRAは期待通りの結果を得ることができませんでした。
Transformer²は、複雑な数学の問題を解決できるだけでなく、プログラミングと論理推論能力を組み合わせることで、分野横断的な知識の共有を実現します。例えば、チームは、より小さなモデルでも専門家ベクトルを転移させることで、より大きなモデルの知識を活用して性能を向上させることができることを発見しました。これは、モデル間の知識共有に新たな可能性をもたらします。
Transformer²はタスク適応性において著しい進歩を遂げましたが、依然としていくつかの制限があります。現在、SVFで訓練された専門家ベクトルは、事前訓練済みモデルに既に存在する能力に依存するだけで、全く新しいスキルを追加することはできません。真の継続学習とは、モデルが新しいスキルを自律的に学習できることを意味し、この目標を実現するにはまだ時間がかかります。700億個を超えるパラメーターを持つ大規模モデルでこの技術を拡張する方法はまだ未解決の問題です。