AI-агенты в продакшене: чек-лист 2026
За 12 месяцев мы вывели в прод 9 агентов для retail, FinTech и логистики. Что ломается чаще всего, какой стек выбирать и почему «GPT-обёртка» — не агент.
Дайджест Креастры
- Агент = инструменты + память + чек-листы; одного промпта мало
- Тратите 80% времени не на модель, а на guardrails и наблюдаемость
- Замер качества — золотой стандарт из 50 кейсов, обновляемый раз в спринт
К началу 2026 года у нас в продакшене работают девять агентов. Один читает входящие тикеты в банке, другой пишет описания товаров маркетплейса, третий считает инвентарь склада в реальном времени. Все они — не «GPT с системным промптом», а полноценные сервисы с собственным жизненным циклом.
1. Чем агент отличается от чат-бота
Агент решает задачу, чат-бот ведёт разговор. Это означает: у агента есть инструменты (поиск, код, БД), память (короткая + долгосрочная) и чек-лист критериев успеха. Если хоть одного из трёх нет — у вас демо, а не сервис.
2. Стек, который выдержал прод
- Модели: GPT-5 + Claude Opus 4.6 + локальный Qwen 3 — каждая на своём классе задач
- Оркестрация: LangGraph для долгих процессов, Inngest для cron-агентов
- Память: pgvector для семантики, Redis для эпизодов, Postgres для фактов
- Наблюдаемость: Langfuse + наш собственный grader-агент
3. Что ломается чаще всего
Не модель. Модели стабильны, дрейф у фронтиров — единицы процентов в квартал. Ломаются интеграции (API сменили формат), руководства (добавили новое правило, забыли обновить prompt), и пользовательские ожидания (вчера было «опиши», сегодня «продай»).
4. Как мерить качество
Берём 50 реальных входов из прода (не синтетику). Размечаем эталонный ответ. Пускаем агента раз в день, считаем долю прохождения по двум осям: «правильность» и «полнота». Раз в спринт обновляем golden-набор — это и есть наш «контракт качества» с заказчиком.