CursorはAIを活用したプログラミングプラットフォームであり、最近、そのTabモデルをアップグレードしました。Tabモデルは開発者に自動補完の提案を行うシステムです。今回のアップグレードにより、低品質な提案数が大幅に減少し、提案の正確性が向上しました。具体的には、新しいTabモデルでは前のバージョンと比較して提案数が21%減少し、受け入れ率が28%向上しています。

Cursorのブログによると、高い受け入れ率を得るためにはモデルをより賢くするだけでなく、いつ提案すべきか、いつ提案しないべきかを理解することも重要です。この課題に対応するために、Cursorは単独のモデルを訓練して、ある提案が受け入れられるかどうかを予測する方法を検討しました。同社は2022年の研究を引用し、この方法がGitHub Copilotで成功したと述べています。研究ではロジスティック回帰フィルターを使用し、プログラミング言語、最近の受け入れ履歴、トレーニング文字などの特徴を分析し、得点が低い提案を非表示にしました。
しかし、Cursorはこの解決策がユーザーが提案を受け入れる確率を予測できるものの、より汎用的なメカニズムが必要だと考えました。これにより、Tabモデルが学んだ強力なコード表現を再利用できるようになります。Cursorは、最初から低品質な提案を作らないように、Tabモデルの構造を変更することを希望しています。
そのため、Cursorは強化学習の一種であるポリシー勾配法を採用しました。ユーザーが提案を受け入れた場合、モデルは報酬を受けます。提案が拒否された場合は罰されます。一方、沈黙を選択した場合は何のフィードバックも得られません。この方法には「オンライン」データが必要であり、現在使用中のモデルから収集されたフィードバックです。Cursorは毎日複数回ユーザーに新しいチェックポイントを配布し、新規インタラクションに基づいて迅速にモデルを再トレーニングすることで、この問題を解決しています。
Cursorは現在、チェックポイントの配布からデータの収集までのプロセスが1.5〜2時間で済むと述べており、これはAI業界ではすでに高速ですが、さらなる加速の余地があります。同社のTabモデルは毎日4億以上のリクエストを処理しており、Cursorはこの改善により開発者のコーディング体験を向上させたいと考えており、将来的にこれらの方法をさらに開発していく予定です。
オンライン強化学習はこの分野で最も注目されている方向の一つであり、OpenAIで後期トレーニングに携わっているエンジニアがSNSでこれを称賛し、Cursorが大規模な実装においてこの技術を成功させた最初の会社であると述べました。
先日、Cursorの親会社Anysphereは9億ドルの資金調達を発表し、評価額は99億ドルとなりました。また、「超値打ち」と称される月額200ドルのプランを発表し、20ドルの「プロフェッショナル版」よりも20倍の使用量を提供することを約束しました。さらに、Cursorはその月にプラットフォームの更新を行い、自動コードレビュー、記憶機能、モデルの文脈プロトコルサーバーをワンクリックで設定する機能を追加しました。
要点:
🌟 CursorのTabモデルをアップグレードした結果、提案数は21%減少し、受け入れ率は28%上昇しました。
🤖 実時間での強化学習法を採用し、モデルはユーザーのフィードバックに基づいて自己調整します。
💰 Cursorの親会社Anysphereは9億ドルを調達し、新プランと機能の向上を発表しました。
