開発・システム系

CAG（キャッシュ拡張生成）

読み方：きゃっしゅかくちょうせいせい

CAGとは

CAG（Cache-Augmented Generation：キャッシュ拡張生成）とは、社内規定や製品マニュアルなどの滅多に変更されない静的な情報を、AIモデルのKV（キー・バリュー）メモリに直接キャッシュとして格納しておくことで、毎回のベクトルDB検索を省略し、推論の高速化とコスト削減を同時に実現する技術です。

従来の RAG（検索拡張生成）では、ユーザーからの質問が来るたびにベクトルデータベースへアクセスして関連情報を検索する必要がありました。しかし、数ヶ月も変更されないような静的なドキュメントに対して毎回検索処理を走らせるのは、サーバーリソースの浪費でありコスト面でも非効率です。CAGはこの無駄を根本から解消します。

RAGとCAGの使い分け

実際の運用では、RAGとCAGを組み合わせたハイブリッド構成が最も効果的です。知識を2つの層に分割して管理します。

コールドデータ（CAG層）: 社内ポリシー、業務マニュアル、製品スペック表など、ほとんど変更されない静的で高価値な情報をモデルのKVメモリに一度だけキャッシュする
ホットデータ（RAG層）: 最新の更新情報、日次レポート、リアルタイムで変動するドキュメントなど、鮮度が求められるデータはこれまで通りベクトルDB経由でリトリーブする

この分離により、推論速度の向上、API呼び出しコストの低減、そして冗長な検索処理の削減という三つの恩恵を同時に得ることができます。

導入時の注意点

CAGを導入する際に最も重要なのは、キャッシュする情報を選択的に選ぶことです。何でもかんでもキャッシュに詰め込むと、モデルのコンテキストウィンドウの上限に達してしまい、かえって性能が劣化します。キャッシュに載せるべきは、参照頻度の高い静的で高価値な知識だけに絞り込む必要があります。

なお、2026年現在、OpenAIやAnthropicなどの主要プロバイダはAPI経由でのプロンプトキャッシュ機能をすでにサポートしており、既存のシステムに比較的容易に組み込むことができます。

検索インフラの限界突破とエンタープライズのROI向上

これまでの長大な社内マニュアルや規程集を毎回ベクトル検索（RAG）させる手法は、APIの課金額を増大させる最大の要因でした。CAGを採用して「会社の基本的なルール」をAIの脳内に常駐化させることで、クラウドAPI費用を大幅に抑制しつつ回答スピードを劇的に上げるアーキテクチャがエンタープライズの主流となっています。コストと性能のトレードオフを破壊し、AI運用コストの固定費化（予測可能性の向上）とROI最大化に直結する必須技術です。

CAGとは

RAGとCAGの使い分け

導入時の注意点

検索インフラの限界突破とエンタープライズのROI向上

あなたのAI活用スキルはLv.何？

同じ「開発・システム系」の関連用語

Devin

GitHub Copilot

Bolt.new

Antigravity