AIモデルのトレーニングのハードルは大幅に低下しています。ナノチャットという全新开発のオープンソースプロジェクトが登場し、一般の開発者やAI愛好家でも低コストで機能豊富なチャットAIシステムを自ら構築できるようになりました。このプロジェクトは「100ドル以内で最も良いChatGPTの実装」として評価されており、データ処理から本番環境へのデプロイまで一括りで行えるシンプルなコードスタックにより、技術的なハードルを大きく下げています。
ナノチャットは単なるモデルではなく、大型言語モデルの完全なトレーニングプロセスを深く理解するための包括的な学習ツールです。このプロジェクトは教育と実験のために設計され、従来の予トレーニングに焦点を当てたツールとは異なり、モデルトレーニング、ファインチューニング、評価、およびインタラクティブなデプロイメントを含むエンドツーエンドのチャットモデルパイプラインを構築しています。
プロジェクトのURL: https://github.com/karpathy/nanochat
このシステム全体は約8000行のコードで構成され、依存関係は最小限に抑えられており、読みやすく修正も容易です。ユーザーは8つのH100 GPUを搭載したクラウドノードを起動し、時間当たり約24ドルの費用をかけ、1つのスクリプトsmoothrun.shを実行することで、約4時間ですべてのプロセスを完了できます。
具体的なプロセスには、FineWeb-Eduなどの高品質なコーパスからデータを抽出・シャッフルし、分散型で効率的にロードするデータ前処理が含まれます。トークン化にはRustで書かれた高速なトークナイザを使用し、65536語彙量をサポートし、チャット用の特別なマーカーも準備されています。予トレーニングではPyTorchを使用してGPU上でTransformerモデルをトレーニングし、損失関数や速度などの主要指標を評価します。中間トレーニングとファインチューニングではSmolTalk対話データセット、複数選択問題、ツール使用例などを用いて監督的なファインチューニングを行い、数学タスクの最適化を可能にする強化学習のオプションもあります。性能評価では世界知識、数学、コード生成などのベンチマークテストを行い、Markdown形式のレポートカードを出力し、定量的な比較が可能です。
最終的には、コマンドラインまたはWebインターフェースでの対話が可能な小さなChatGPTのコピーが得られます。物語の生成、簡単な質問への回答、そしてPythonインタプリタのサンドボックスなどの基本的なツール呼び出しにも対応しています。
ナノチャットの最大の特徴は、平民化された設計です。100ドルの予算で4時間トレーニングを行うことで、基本的なチャットモデルを作成でき、ときには娯楽的な出力も行われますが、簡単な会話をすることもできます。トレーニング時間を12時間に延長すると、GPT-2の核心指標を上回ることができます。さらに1000ドル(約41.6時間)を投資すれば、モデルの連続性が大幅に向上し、初級的な数学とコードの問題を解決できるようになり、MMLUでは40%、ARC-Easyでは70%、GSM8Kでは20%の正確度を達成できます。
例えば、深さ30のモデルが24時間トレーニングを行えば、GPT-3 Smallの千分の一の計算量で、複数選択テストで優れたパフォーマンスを示すことができます。これは効率的なトレーニングの可能性を証明するだけでなく、リソースが限られている開発者にとっての基準となることも示しています。
LLM101nコースの最終的なプロジェクトとして、ナノチャットは統一的で極めて簡潔で読みやすく、カスタマイズ可能な強固なベースラインスタックを提供することを目的としています。コミュニティによるフォークや最適化を奨励しており、研究プラットフォームやベンチマークキットとして潜在的な存在と見なされています。ブラックボックスAPIとは異なり、ナノチャットはオープンソースの制御を重視し、学習者がデータから推論に至るまでを手がかりに、実際にChatGPTの核心技术を掌握できるようにしています。
現在、このプロジェクトはGitHubでオープンソース化されており、コミュニティからのフィードバックは熱烈です。最適化と繰り返しの改善を通じて、ナノチャットはAI教育分野の指針になることが期待されています。
AIの民主化の波の中で、ナノチャットは手術刀のように、大規模言語モデルの神秘的な面を正確に解剖しています。このプロジェクトは、偉大なモデルが遠くないものであることを証明し、数行のコードと数時間の計算によって実現可能なものです。このプロジェクトは、AI学習のハードルを下げることだけでなく、開発者に透明性があり、制御可能で理解しやすい完全なトレーニングプロセスを提供し、より多くの人がAI技術の核心原理を深く理解し、掌握する機会を得られるようにしています。