GitHubは、2026年4月24日からコードベースのポリシーを更新することを発表しました。この変更では、ユーザーのインタラクションデータを活用してAIモデルをトレーニングする予定です。今回のデータ収集対象は、Copilot Free、Pro、Pro+のユーザーであり、具体的にはモデルの入出力、コードスニペット、コンテキスト情報、リポジトリ構造、チャットのやり取りが含まれます。

GitHubの最高製品責任者であるMario Rodriguez氏は、インタラクションデータを取り入れることで、モデルのコード提案の正確性と安全性を向上させると語っています。また、マイクロソフト内のデータによる事前テストにより、提案の受け入れ率が顕著に向上したと述べています。注目すべきは、このポリシーが「初期設定で参加」のメカニズムを採用していることで、影響を受けるユーザーはプライバシー設定に入り、関連オプションを手動で無効にしない限り、このポリシーから脱退することはできません。これにより、開発者コミュニティにおいて、プライベートリポジトリの定義やデータ所有権に関する広範な議論が巻き起こっています。

Github

現在、契約条項に基づいて運用されているCopilot Business、Enterpriseユーザーおよび教育版ユーザーは、この変更の影響を受けません。GitHubは説明の中で、この行動がAnthropic、JetBrains、マイクロソフトなどの大手企業が一般的に行っている業界慣例に合致していると強調しています。しかし、プライベートリポジトリのコードをトレーニングデータに含めることは、従来の「プライベート」という概念の境界を実質的に挑戦しています。それにもかかわらず、GitHubはその目的が開発ワークフローの最適化にあると述べています。

業界視点から見ると、高品質な公的なコードデータが減少しつつある中、トップクラスのAIベンチャーは、私有されたインタラクションデータなどの「深いデータ」を掘り下げることで、モデル性能の恩恵を得ようとしています。このポリシーの変更は、GitHubがオープンソースホスティングプラットフォームから閉ループ型AIトレーニングエコシステムへとさらに傾斜していることを示しており、AI開発者ツール分野がデータコンプライアンスとモデルの進化との間での新たな局面を迎えることを示唆しています。