Anthropic APIは最近、プロンプトキャッシュ機能を導入しました。開発者は、API呼び出し間で頻繁に使用されるコンテキスト情報をキャッシュできるようになりました。プロンプトキャッシュを使用することで、お客様はClaudeモデルにより多くの背景知識とサンプル出力を提供でき、同時に長いプロンプトのコストを最大90%、遅延を最大85%削減できます。
この機能は現在、Claude 3.5 SonnetとClaude 3 Haikuの公開テスト版で使用可能で、将来的にはClaude 3 Opusもサポートする予定です。
プロンプトキャッシュ機能は、以下のシナリオに特に適しています。会話エージェントにおける長い会話のコストと遅延の削減(複雑な指示やドキュメントのアップロードを含む場合)、コードアシスタントにおける自動補完とコードベースのQ&Aの改善(プロンプトにコードベースのサマリーバージョンを保持することで)、大規模ドキュメント処理における応答時間増加なしでの長文資料の埋め込み、代理検索やツール使用シナリオにおける複数回のツール呼び出しと反復的な変更を含む場合の性能向上などです。
プロンプトキャッシュの価格は、キャッシュされた入力トークンの数と使用頻度によって異なります。キャッシュへの書き込みコストは基本的な入力トークン価格より25%高くなりますが、キャッシュされたコンテンツの使用コストは大幅に削減され、基本的な入力トークン価格のわずか10%になります。
Anthropic APIのお客様であるNotionは、既にプロンプトキャッシュ機能を自社の人工知能アシスタントNotion AIに統合しています。コスト削減と速度向上により、Notionは内部運用を最適化し、ユーザーにより高度で迅速な体験を提供しています。