Observability и алерты
Настраиваем и тюним Prometheus / Grafana / Loki / Jaeger. Удаляем шумные алерты, добавляем SLI/SLO, считаем error budget. Алерты идут в Telegram / Slack / PagerDuty.
Senior-инженер заходит в ваш highload-проект как дежурный SRE: следит за метриками, реагирует на инциденты, проводит ежемесячный архитектурный ревью. Try-out первый месяц — 80 000 ₽ без обязательств продлевать.
Настраиваем и тюним Prometheus / Grafana / Loki / Jaeger. Удаляем шумные алерты, добавляем SLI/SLO, считаем error budget. Алерты идут в Telegram / Slack / PagerDuty.
Реакция на блокер в течение 30 минут (24/7 в Standard и выше). Локализация, mitigation, post-mortem с RCA и action items. Журнал инцидентов и SLA-отчёты.
Анализ роста нагрузки, прогноз исчерпания ресурсов (CPU, RAM, DB connections, Kafka partitions). Рекомендации по горизонтальному масштабированию до того, как упёрлись.
Сопровождение Blue-Green / Canary деплоев, миграции БД без downtime (expand → migrate → contract), feature flags. Откат за минуты, если что-то пошло не так.
Ежемесячный «совет инженера»: что появилось нового, какие узкие места видны в метриках, какие 3–5 шагов по технической стратегии на ближайший спринт.
Для финтеха и госсектора — соответствие требованиям ПДн, изоляция платёжного контура, аудит-логи. Без потери инженерного качества.
2–3 дня. Знакомство с тех-лидом, изучение архитектуры и кода критичных модулей, runbooks. Карта рисков, оценка observability-долга.
Доступы (read + minimal write), интеграция в Telegram / Slack / PagerDuty. Тюнинг алертов: убираем шумные, добавляем недостающие SLI/SLO.
On-call по согласованному графику. Реакция на блокер ≤ 30 мин. Ежедневные обновления, еженедельный синк, ежемесячный архитектурный ревью.
В конце try-out месяца: отчёт по инцидентам, SLO-стат, рекомендации. Дальше — продлеваете в Standard/Enterprise или расходимся без обязательств.
Разработчик пишет фичи и фиксит баги. SRE отвечает за надёжность системы в целом: алерты, мониторинг, инцидент-менеджмент, SLI/SLO, capacity planning, post-mortem. Это инженер, чей KPI — uptime и p99 latency, а не количество закрытых тикетов.
Да. Договор на 1 месяц, не продлевается автоматически. За месяц вы успеете: посмотреть, как мы настраиваем observability, оценить качество архитектурного ревью, понять, нужен ли вам этот формат на постоянку. Не понравилось — расходимся, отчёт и настройки остаются у вас.
Да. Try-out предполагает on-call в рабочее время (МСК), потому что 24/7 требует дежурного графика двух инженеров минимум. Если 24/7 нужен с первого дня — стартуем сразу со Standard.
Поднимем на ваших ресурсах за 1–2 дня. Это входит в onboarding. Если у вас Datadog / New Relic / Yandex Monitoring — работаем в них же, ничего перестраивать не надо.
DevOps часто строит инфру и CI/CD. SRE — отвечает за продакшен «в моменте»: дежурит, отвечает на алерты, делает post-mortem, тюнит SLI/SLO. Эти роли не пересекаются и хорошо работают в паре. Если ваш DevOps выгорел от ночных алертов — нанять SRE спасёт команду.
Время реакции на блокер (15 или 30 мин в зависимости от тарифа), время до mitigation (по severity), наличие post-mortem в течение 48 часов. В Enterprise — финансовая ответственность по SLA в договоре.
Да. У нас опыт работы в банковском секторе (ВТБ, Сбер, Росбанк, Société Générale). Знаем требования по хранению ПДн в РФ, изоляции платёжного контура, аудит-логам. В Enterprise-тарифе соответствие гарантируется в договоре.
Да. Договор с ИП или ООО, акт + счёт-фактура. NDA до старта переговоров.
Расскажите про backend и текущий стек observability: что есть, чего нет, что болит. Согласуем onboarding и стартовый график дежурств.