Prompt Caching: как ускорить AI-агентов и снизить расходы на 90%

Сравнительный обзор механизмов кеширования в Claude, GPT-4o и Gemini: как экономить на токенах без потери качества.
Prompt Caching: новый стандарт оптимизации AI-систем
До недавнего времени каждая итерация диалога с AI заставляла модель заново перечитывать весь контекст: токенизировать текст, создавать эмбеддинги и просчитывать связи. В 2025 году лидерами рынка (Anthropic, OpenAI и Google) был внедрен Prompt Caching — технология, которая позволяет сохранять результаты вычислений и переиспользовать их в последующих запросах.
Как это работает: Claude, OpenAI и Gemini
Хотя общая концепция кеширования одинакова — «не обрабатывать дважды то, что уже известно», — техническая реализация у разных провайдеров отличается:
Anthropic (Claude)
Явное управление через cache_control. Кеш живет 1 час. Требуется минимум 1024 токена. Идеально для сложных Agentic-цепочек.
OpenAI (GPT-4o)
Автоматическое кеширование префиксов от 1024 токенов. Не требует правок в коде, но менее гибкое в управлении точками сброса.
Google (Gemini)
Модель Context Caching. Позволяет хранить огромные объемы (от 32к токенов) до нескольких дней. Оплата за время хранения.
Анатомия кеширования: Cache Breakpoints
На примере Claude, кеширование требует ручной расстановки «контрольных точек». Важно понимать: кешируется все, что идет до точки включительно. Любое изменение (даже лишний пробел) внутри закешированного блока аннулирует его.
# Пример кеширования контекста компании
"role": "system",
"content": [ { "type": "text", "text": "...длинный текст...", "cache_control": {"type": "ephemeral"} } ]


