グーグルのDeepMindは最近、「デカップルされたDiLoCo」と呼ばれる新しい分散トレーニングアーキテクチャをリリースしました。このイノベーションは、大規模なAIモデルのトレーニング効率を向上させ、ハードウェア障害時のロバスト性を強化することを目的としています。
従来のトレーニング方法では、すべての計算ユニットが勾配更新時に厳密に同期する必要があり、これは単一のハードウェア障害によって全体のプロセスに影響を与える可能性があります。この問題を解決するために、デカップルされたDiLoCoはトレーニングプロセスを複数の非同期で故障隔離された「計算孤島」に分散し、それぞれの計算ユニットが他のユニットを待たずに独自にトレーニングを行うことができます。

このアーキテクチャのコアは、トレーニングタスクを「学習ユニット」と呼ばれるクラスタに割り当てることです。各学習ユニットはローカルで複数回の勾配計算を行い、その後圧縮された勾配情報を外部オプティマイザに送信して集約します。このプロセスは非同期であるため、あるユニットが障害を起こしても、他のユニットは引き続きトレーニングを続けることができ、従来の方法のように単一の障害ポイントによる全体の停止を防ぐことができます。
実験により、デカップルされたDiLoCoは高いハードウェア障害率でも88%の良好な利用率を維持できることが確認され、標準的なデータ並列トレーニング方法ではわずか27%にとどまります。さらに、この新アーキテクチャはデータセンター間の帯域幅を198 Gbpsから大幅に0.84 Gbpsに削減し、現在の商業的なインターネットインフラストラクチャでのグローバルな分散トレーニングを可能にしています。
注目すべき点は、デカップルされたDiLoCoには自己治癒機能があることです。混沌工学テストにおいて、システムはすべての学習ユニットが失敗した後もトレーニングを継続でき、ユニットが復元された後にはスムーズに再統合できます。このような柔軟性はさまざまなハードウェアプラットフォームで同様に適用され、異なる世代のTPUチップが一度のトレーニングで協働できるようにし、古い機器の寿命を延ばし、ハードウェア更新中の容量のボトルネックを緩和します。
要点:
🌟 デカップルされたDiLoCoは、トレーニングタスクを複数の非同期学習ユニットに分散することで、大規模モデルトレーニングのロバスト性を高めています。
🌐 このアーキテクチャはデータセンター間の帯域幅需要を0.84 Gbpsにまで低下させ、グローバルな分散トレーニングをより現実的にしています。
🔧 自己治癒機能を持つデカップルされたDiLoCoは、ハードウェア障害の状況下でも効率的なトレーニングを維持し、異種ハードウェアの混合使用をサポートしています。
