Мониторинг AI-агентов в продакшене: метрики, логирование и контроль затрат

Практический гайд по настройке мониторинга: от базовых метрик до enterprise-решений
Мониторинг AI-агентов в продакшене: метрики, логирование и контроль затрат
Запустить AI-агента в продакшен — это только начало. Реальная работа начинается, когда нужно понять: работает ли он стабильно, не сливает ли бюджет, довольны ли пользователи. Без мониторинга вы узнаете о проблемах только когда пользователи начнут жаловаться или когда придет счет на $10,000 вместо ожидаемых $500.
В этой статье разберем практический подход к мониторингу: какие метрики реально важны, какие инструменты использовать и как настроить систему контроля затрат.
Ключевые метрики: что действительно важно отслеживать
1. Latency (Задержка) — скорость ответа системы
Пользователи уходят, если агент отвечает дольше 5-7 секунд. Latency напрямую влияет на UX и критична для интерактивных чатов. Для фоновых задач (например, обработка email раз в час) этот параметр менее важен.
Три ключевых показателя:
- TTFT (Time to First Token) — время до первого токена ответа. Идеал: < 1 секунды. Если больше 3 секунд — пользователь видит "зависший" интерфейс.
- Total Response Time — полное время генерации. Зависит от длины ответа. Для 500 токенов норма 3-5 секунд.
- Tool Call Duration — время выполнения внешних API (поиск в базе, запрос в CRM). Часто это узкое место: сам LLM ответил за секунду, а поиск в Elasticsearch тормозит 8 секунд.
2. Token Usage (Использование токенов) — расход "топлива"
Обязательная метрика для всех проектов, так как токены = деньги. 1 миллион токенов Claude Opus 4.5 стоит $5 на вход и $25 на выход. Без контроля можно слить бюджет за неделю.
Что отслеживать:
- Input tokens per request — сколько токенов в промпте. Если постоянно 8000+, значит в контекст попадает лишнее.
- Output tokens per request — длина ответа агента. Если агент выдает по 3000 токенов на простой вопрос — он не умеет быть лаконичным.
- Cached tokens hit rate — процент токенов, взятых из кеша. При Prompt Caching должно быть 70-90%. Если 20% — кеш настроен неправильно.
- Total tokens per day/month — общий расход. Главная метрика для планирования бюджета.
3. Cost (Стоимость) — сколько горит денег
Критичная метрика для предотвращения неожиданных счетов в конце месяца. Стоимость может внезапно взлететь из-за одного пользователя, который гоняет агента 24/7.
- Cost per request — средняя стоимость одного запроса. У нормального чат-бота $0.01-0.05. Если $0.50 — что-то не так.
- Cost per user session — сколько стоит одна сессия пользователя. Помогает оценить юнит-экономику.
- Daily/Monthly burn rate — скорость сжигания бюджета. Если видите +30% рост день к дню — срочно разбираться.
- Cost per successful task — стоимость успешно выполненной задачи. Если агент стоит $1, но решает задачу только в 50% случаев — реальная стоимость $2.
4. Quality (Качество) — работает ли агент как надо
Без качества весь смысл AI теряется. Дешевый, но бесполезный агент хуже дорогого, но полезного.
- User satisfaction rate — доля довольных пользователей. Измеряется через thumbs up/down, NPS или простое "Помог ли ответ?".
- Task completion rate — процент успешно выполненных задач.
- Error rate — процент технических ошибок. Норма < 2%.
- Escalation to human rate — как часто агент сдается и передает на живого человека.
5. Reliability (Надежность) — стабильность работы
API провайдеров не идеальны. Anthropic, OpenAI, Google иногда падают или тормозят. Критично для production-систем с SLA, для MVP можно не заморачиваться.
- API uptime — доступность API провайдера. Норма 99.9%.
- Rate limit hits — как часто упираетесь в лимиты запросов.
- Retry success rate — процент успешных повторов после ошибки. Должно быть 90%+.
- Circuit breaker triggers — сколько раз срабатывал автоматический выключатель при множественных ошибках.


