AI Development8 мин

Мониторинг AI-агентов в продакшене: метрики, логирование и контроль затрат

Мониторинг AI-агентов в продакшене: метрики, логирование и контроль затрат

Практический гайд по настройке мониторинга: от базовых метрик до enterprise-решений

Мониторинг AI-агентов в продакшене: метрики, логирование и контроль затрат

Запустить AI-агента в продакшен — это только начало. Реальная работа начинается, когда нужно понять: работает ли он стабильно, не сливает ли бюджет, довольны ли пользователи. Без мониторинга вы узнаете о проблемах только когда пользователи начнут жаловаться или когда придет счет на $10,000 вместо ожидаемых $500.

В этой статье разберем практический подход к мониторингу: какие метрики реально важны, какие инструменты использовать и как настроить систему контроля затрат.

Ключевые метрики: что действительно важно отслеживать

1. Latency (Задержка) — скорость ответа системы

Пользователи уходят, если агент отвечает дольше 5-7 секунд. Latency напрямую влияет на UX и критична для интерактивных чатов. Для фоновых задач (например, обработка email раз в час) этот параметр менее важен.

Три ключевых показателя:

  • TTFT (Time to First Token) — время до первого токена ответа. Идеал: < 1 секунды. Если больше 3 секунд — пользователь видит "зависший" интерфейс.
  • Total Response Time — полное время генерации. Зависит от длины ответа. Для 500 токенов норма 3-5 секунд.
  • Tool Call Duration — время выполнения внешних API (поиск в базе, запрос в CRM). Часто это узкое место: сам LLM ответил за секунду, а поиск в Elasticsearch тормозит 8 секунд.

2. Token Usage (Использование токенов) — расход "топлива"

Обязательная метрика для всех проектов, так как токены = деньги. 1 миллион токенов Claude Opus 4.5 стоит $5 на вход и $25 на выход. Без контроля можно слить бюджет за неделю.

Что отслеживать:

  • Input tokens per request — сколько токенов в промпте. Если постоянно 8000+, значит в контекст попадает лишнее.
  • Output tokens per request — длина ответа агента. Если агент выдает по 3000 токенов на простой вопрос — он не умеет быть лаконичным.
  • Cached tokens hit rate — процент токенов, взятых из кеша. При Prompt Caching должно быть 70-90%. Если 20% — кеш настроен неправильно.
  • Total tokens per day/month — общий расход. Главная метрика для планирования бюджета.

3. Cost (Стоимость) — сколько горит денег

Критичная метрика для предотвращения неожиданных счетов в конце месяца. Стоимость может внезапно взлететь из-за одного пользователя, который гоняет агента 24/7.

  • Cost per request — средняя стоимость одного запроса. У нормального чат-бота $0.01-0.05. Если $0.50 — что-то не так.
  • Cost per user session — сколько стоит одна сессия пользователя. Помогает оценить юнит-экономику.
  • Daily/Monthly burn rate — скорость сжигания бюджета. Если видите +30% рост день к дню — срочно разбираться.
  • Cost per successful task — стоимость успешно выполненной задачи. Если агент стоит $1, но решает задачу только в 50% случаев — реальная стоимость $2.

4. Quality (Качество) — работает ли агент как надо

Без качества весь смысл AI теряется. Дешевый, но бесполезный агент хуже дорогого, но полезного.

  • User satisfaction rate — доля довольных пользователей. Измеряется через thumbs up/down, NPS или простое "Помог ли ответ?".
  • Task completion rate — процент успешно выполненных задач.
  • Error rate — процент технических ошибок. Норма < 2%.
  • Escalation to human rate — как часто агент сдается и передает на живого человека.

5. Reliability (Надежность) — стабильность работы

API провайдеров не идеальны. Anthropic, OpenAI, Google иногда падают или тормозят. Критично для production-систем с SLA, для MVP можно не заморачиваться.

  • API uptime — доступность API провайдера. Норма 99.9%.
  • Rate limit hits — как часто упираетесь в лимиты запросов.
  • Retry success rate — процент успешных повторов после ошибки. Должно быть 90%+.
  • Circuit breaker triggers — сколько раз срабатывал автоматический выключатель при множественных ошибках.
ИИ анализ продаж и звонков

ИИ анализ продаж и звонков

Узнайте, как мы построили систему комплексного анализа данных для поиска точек роста в маркетинге

Обзор инструментов мониторинга

1. LangSmith — комбайн для LLM-приложений

Самый популярный инструмент от создателей LangChain. Автоматически логирует все вызовы LLM, показывает полные трейсы агентов.

Плюсы: Автоматический трейсинг, визуализация цепочек агентов, A/B тестирование промптов, playground для отладки, интеграция с экосистемой.

Минусы: Цена после free tier ($30/мес за 100k трейсов), vendor lock-in, хранение данных на серверах LangSmith.

Когда использовать: Для большинства проектов. Самый простой старт.

2. Helicone — прокси с мониторингом

Open-source прокси между вашим приложением и API провайдера.

Плюсы: Универсальность (все провайдеры), open-source (можно self-host), детальная аналитика стоимости, встроенный кеш, низкий порог входа.

Минусы: Добавляет latency (+50-200ms), требует инфраструктуру для self-hosted, нет визуализации цепочек.

Когда использовать: Для контроля над данными или мультипровайдерных проектов.

3. PromptLayer — версионирование промптов

Специализируется на версионировании промптов. Git для промптов.

Плюсы: История изменений промптов, теги и поиск, простая интеграция, анализ стоимости.

Минусы: Узкая специализация, дороже аналогов ($49/мес), нет трейсинга агентов, нет self-hosted.

Когда использовать: Активное экспериментирование с промптами.

4. Custom решение — PostgreSQL + Grafana

Собственная система на базе PostgreSQL и Grafana.

Плюсы: Полный контроль, дешево (только инфраструктура), приватность данных, гибкость.

Минусы: Время на разработку, самостоятельная поддержка, нет advanced features.

Когда использовать: Специфичные требования или ограниченный бюджет.

Инструмент Цена (старт) Трейсинг агентов Self-hosted Best for
LangSmith $30/мес ✅ Отличный ❌ Нет Большинство проектов
Helicone $0 (self-host) ❌ Нет ✅ Да Контроль данных
PromptLayer $49/мес ❌ Нет ❌ Нет Версионирование
Custom $50-200/мес ⚠️ Сами делаете ✅ Да Специфичные задачи

Контроль затрат: практические методы

1. Rate Limiting по бюджету

Самый простой способ не слить бюджет — ограничить расходы на уровне пользователя и всего сервиса. Установите лимит на пользователя ($5-10 в день для обычного, $50-100 для корпоративного), глобальный месячный лимит, используйте Redis для подсчета в реальном времени.

2. Token Limiter — обрезка длинных промптов

Пользователи могут отправлять огромные тексты, что съедает бюджет. Ограничьте input (4000-8000 токенов максимум), output (max_tokens=1000 для простых вопросов), оценивайте стоимость ДО запроса.

3. Model Selection — правильная модель под задачу

Не все задачи требуют Claude Opus 4.5 за $5/$25 per MTok. Часто достаточно Claude Haiku за $0.25/$1.25. Простые вопросы (FAQ) → Haiku, средняя сложность → Sonnet, сложные задачи (coding, analysis) → Opus. Экономия: до 20x на простых запросах.

4. Prompt Caching — переиспользование контекста

Если передаете в каждом запросе одинаковый контекст (база знаний, системные инструкции) — кешируйте его. Первый запрос дороже на 25%, последующие дешевле на 90%, ускорение в 2-5 раз. Работает для контекста > 1024 токена.

Настройка алертов

Три уровня алертов:

Критичные (сразу)

  • Error rate > 5%
  • Бюджет 100%
  • API down > 5 мин
  • Latency > 15 сек

Предупреждения (час)

  • Бюджет 80%
  • Error rate > 2%
  • Latency > 7 сек
  • Пользователь $50+/день

Инфо (на след. день)

  • Дневной отчет
  • Топ-5 дорогих
  • Недельный тренд

Куда слать: Telegram — для критичных (мгновенно), Slack — для предупреждений, Email — для отчетов, PagerDuty — для production с SLA.

Best Practices

  • Sampling для экономии: Не трейсьте 100% запросов. 10-20% достаточно. В production трейсьте все ошибки + 10% успешных.
  • Retention Policy: Детальные логи — 7 дней, агрегированные метрики — 1 год, критичные инциденты — бессрочно.
  • Privacy-first логирование: Не логируйте персональные данные, пароли, медицинскую и финансовую информацию. Анонимизируйте перед сохранением.
  • Мониторинг мониторинга: Проверяйте что сам мониторинг работает: логи пишутся, метрики обновляются, алерты доходят.

Заключение

Мониторинг AI-агентов — это баланс между контролем и практичностью.

Минимальный набор для старта: LangSmith Free tier или Helicone self-hosted, базовый дашборд (cost per day, error rate, latency), алерт в Telegram на превышение бюджета, rate limiting по пользователям.

Для серьезного production: Полноценный трейсинг (LangSmith Pro), детальная аналитика по когортам, A/B тестирование промптов, автоматические circuit breakers, интеграция с PagerDuty.

Главный совет: начните с малого. Добавьте базовое логирование стоимости и latency, настройте один алерт на превышение бюджета. Остальное добавите по мере роста. Худшее что можно сделать — запустить в продакшен вообще без мониторинга.

Мониторинг AI-агентов в продакшене: метрики, логирование и контроль затрат - Ailean