Мониторинг AI-агентов в продакшене: метрики, логирование и контроль затрат

Запустить AI-агента в продакшен — это только начало. Реальная работа начинается, когда нужно понять: работает ли он стабильно, не сливает ли бюджет, довольны ли пользователи. Без мониторинга вы узнаете о проблемах только когда пользователи начнут жаловаться или когда придет счет на $10,000 вместо ожидаемых $500.

В этой статье разберем практический подход к мониторингу: какие метрики реально важны, какие инструменты использовать и как настроить систему контроля затрат.

Ключевые метрики: что действительно важно отслеживать

1. Latency (Задержка) — скорость ответа системы

Пользователи уходят, если агент отвечает дольше 5-7 секунд. Latency напрямую влияет на UX и критична для интерактивных чатов. Для фоновых задач (например, обработка email раз в час) этот параметр менее важен.

Три ключевых показателя:

TTFT (Time to First Token) — время до первого токена ответа. Идеал: < 1 секунды. Если больше 3 секунд — пользователь видит "зависший" интерфейс.
Total Response Time — полное время генерации. Зависит от длины ответа. Для 500 токенов норма 3-5 секунд.
Tool Call Duration — время выполнения внешних API (поиск в базе, запрос в CRM). Часто это узкое место: сам LLM ответил за секунду, а поиск в Elasticsearch тормозит 8 секунд.

2. Token Usage (Использование токенов) — расход "топлива"

Обязательная метрика для всех проектов, так как токены = деньги. 1 миллион токенов Claude Opus 4.5 стоит $5 на вход и $25 на выход. Без контроля можно слить бюджет за неделю.

Что отслеживать:

Input tokens per request — сколько токенов в промпте. Если постоянно 8000+, значит в контекст попадает лишнее.
Output tokens per request — длина ответа агента. Если агент выдает по 3000 токенов на простой вопрос — он не умеет быть лаконичным.
Cached tokens hit rate — процент токенов, взятых из кеша. При Prompt Caching должно быть 70-90%. Если 20% — кеш настроен неправильно.
Total tokens per day/month — общий расход. Главная метрика для планирования бюджета.

3. Cost (Стоимость) — сколько горит денег

Критичная метрика для предотвращения неожиданных счетов в конце месяца. Стоимость может внезапно взлететь из-за одного пользователя, который гоняет агента 24/7.

Cost per request — средняя стоимость одного запроса. У нормального чат-бота $0.01-0.05. Если $0.50 — что-то не так.
Cost per user session — сколько стоит одна сессия пользователя. Помогает оценить юнит-экономику.
Daily/Monthly burn rate — скорость сжигания бюджета. Если видите +30% рост день к дню — срочно разбираться.
Cost per successful task — стоимость успешно выполненной задачи. Если агент стоит $1, но решает задачу только в 50% случаев — реальная стоимость $2.

4. Quality (Качество) — работает ли агент как надо

Без качества весь смысл AI теряется. Дешевый, но бесполезный агент хуже дорогого, но полезного.

User satisfaction rate — доля довольных пользователей. Измеряется через thumbs up/down, NPS или простое "Помог ли ответ?".
Task completion rate — процент успешно выполненных задач.
Error rate — процент технических ошибок. Норма < 2%.
Escalation to human rate — как часто агент сдается и передает на живого человека.

5. Reliability (Надежность) — стабильность работы

API провайдеров не идеальны. Anthropic, OpenAI, Google иногда падают или тормозят. Критично для production-систем с SLA, для MVP можно не заморачиваться.

API uptime — доступность API провайдера. Норма 99.9%.
Rate limit hits — как часто упираетесь в лимиты запросов.
Retry success rate — процент успешных повторов после ошибки. Должно быть 90%+.
Circuit breaker triggers — сколько раз срабатывал автоматический выключатель при множественных ошибках.

Инструмент	Цена (старт)	Трейсинг агентов	Self-hosted	Best for
LangSmith	$30/мес	✅ Отличный	❌ Нет	Большинство проектов
Helicone	$0 (self-host)	❌ Нет	✅ Да	Контроль данных
PromptLayer	$49/мес	❌ Нет	❌ Нет	Версионирование
Custom	$50-200/мес	⚠️ Сами делаете	✅ Да	Специфичные задачи

Мониторинг AI-агентов в продакшене: метрики, логирование и контроль затрат

Мониторинг AI-агентов в продакшене: метрики, логирование и контроль затрат

Ключевые метрики: что действительно важно отслеживать

1. Latency (Задержка) — скорость ответа системы

2. Token Usage (Использование токенов) — расход "топлива"

3. Cost (Стоимость) — сколько горит денег

4. Quality (Качество) — работает ли агент как надо

5. Reliability (Надежность) — стабильность работы

ИИ анализ продаж и звонков

Обзор инструментов мониторинга

1. LangSmith — комбайн для LLM-приложений

2. Helicone — прокси с мониторингом

3. PromptLayer — версионирование промптов

4. Custom решение — PostgreSQL + Grafana

Контроль затрат: практические методы

1. Rate Limiting по бюджету

2. Token Limiter — обрезка длинных промптов

3. Model Selection — правильная модель под задачу

4. Prompt Caching — переиспользование контекста

Настройка алертов

Критичные (сразу)

Предупреждения (час)

Инфо (на след. день)

Best Practices

Заключение

Похожие статьи

Prompt Caching: как ускорить AI-агентов и снизить расходы на 90%

AI Skills: новый стандарт расширения возможностей AI-агентов