Новаком
Главная/Услуги/Дежурный SRE на аутсорсе
ТРИПВАЙР · ДЕЖУРНЫЙ SRE · НА МЕСЯЦ

Дежурный SRE-инженер
на аутсорсе

Senior-инженер заходит в ваш highload-проект как дежурный SRE: следит за метриками, реагирует на инциденты, проводит ежемесячный архитектурный ревью. Try-out первый месяц — 80 000 ₽ без обязательств продлевать.

Тарифы
1 мес
минимальный заход
80 000 ₽
try-out месяц
≤ 30 мин
реакция на блокер
Senior
5–8+ лет в highload
ЧТО ДЕЛАЕТ ДЕЖУРНЫЙ SRE · 6 НАПРАВЛЕНИЙ

За что отвечает дежурный SRE.

01

Observability и алерты

Настраиваем и тюним Prometheus / Grafana / Loki / Jaeger. Удаляем шумные алерты, добавляем SLI/SLO, считаем error budget. Алерты идут в Telegram / Slack / PagerDuty.

02

Инцидент-менеджмент

Реакция на блокер в течение 30 минут (24/7 в Standard и выше). Локализация, mitigation, post-mortem с RCA и action items. Журнал инцидентов и SLA-отчёты.

03

Capacity planning

Анализ роста нагрузки, прогноз исчерпания ресурсов (CPU, RAM, DB connections, Kafka partitions). Рекомендации по горизонтальному масштабированию до того, как упёрлись.

04

Релизы и миграции

Сопровождение Blue-Green / Canary деплоев, миграции БД без downtime (expand → migrate → contract), feature flags. Откат за минуты, если что-то пошло не так.

05

Архитектурный ревью раз в месяц

Ежемесячный «совет инженера»: что появилось нового, какие узкие места видны в метриках, какие 3–5 шагов по технической стратегии на ближайший спринт.

06

Compliance: 152-ФЗ и ФСТЭК

Для финтеха и госсектора — соответствие требованиям ПДн, изоляция платёжного контура, аудит-логи. Без потери инженерного качества.

СТЕК · С ЧЕМ РАБОТАЕМ

Инструменты дежурства.

Java 17–21KotlinSpring BootPostgreSQLRedisKafkaRabbitMQKubernetesOpenShiftPrometheusGrafanaLokiJaegerOpenTelemetryPagerDutyResilience4jArgoCDTerraform
КАК ЗАХОДИМ · ПРОЦЕСС

Onboarding за неделю, дежурство со 2-й.

  1. 01

    Неделя 0 — knowledge transfer

    2–3 дня. Знакомство с тех-лидом, изучение архитектуры и кода критичных модулей, runbooks. Карта рисков, оценка observability-долга.

  2. 02

    Неделя 1 — настройка дежурства

    Доступы (read + minimal write), интеграция в Telegram / Slack / PagerDuty. Тюнинг алертов: убираем шумные, добавляем недостающие SLI/SLO.

  3. 03

    Неделя 2+ — активное дежурство

    On-call по согласованному графику. Реакция на блокер ≤ 30 мин. Ежедневные обновления, еженедельный синк, ежемесячный архитектурный ревью.

  4. 04

    Месяц 1 — отчёт + решение

    В конце try-out месяца: отчёт по инцидентам, SLO-стат, рекомендации. Дальше — продлеваете в Standard/Enterprise или расходимся без обязательств.

ТАРИФЫ · ДЕЖУРНЫЙ SRE

Try-out → постоянное дежурство.

Try-out

80 000 ₽
первый месяц
  • 1 Senior SRE на 30–40 ч/мес
  • On-call в рабочее время (МСК)
  • Реакция ≤ 30 мин
  • Настройка observability и алертов
  • Архитектурный ревью в конце месяца
  • Без обязательств продлевать
  • Идеально как пилот
ПОПУЛЯРНОЕ

Standard

от 180 000 ₽/мес
помесячно
  • 1 Senior SRE на 60–80 ч/мес
  • On-call 24/7 с PagerDuty
  • Реакция ≤ 30 мин
  • SLO + error budget
  • Post-mortem после каждого инцидента
  • Capacity planning раз в квартал
  • Сопровождение релизов и миграций

Enterprise

от 350 000 ₽/мес
помесячно
  • Выделенный Senior SRE (фокус на проекте)
  • On-call 24/7 + бэкап-инженер
  • Реакция ≤ 15 мин
  • Соответствие 152-ФЗ / ФСТЭК
  • Архитектурный ревью раз в спринт
  • Drill-инциденты (chaos engineering)
  • Финансовая ответственность по SLA
FAQ · ДЕЖУРНЫЙ SRE

Частые вопросы.

Разработчик пишет фичи и фиксит баги. SRE отвечает за надёжность системы в целом: алерты, мониторинг, инцидент-менеджмент, SLI/SLO, capacity planning, post-mortem. Это инженер, чей KPI — uptime и p99 latency, а не количество закрытых тикетов.

Да. Договор на 1 месяц, не продлевается автоматически. За месяц вы успеете: посмотреть, как мы настраиваем observability, оценить качество архитектурного ревью, понять, нужен ли вам этот формат на постоянку. Не понравилось — расходимся, отчёт и настройки остаются у вас.

Да. Try-out предполагает on-call в рабочее время (МСК), потому что 24/7 требует дежурного графика двух инженеров минимум. Если 24/7 нужен с первого дня — стартуем сразу со Standard.

Поднимем на ваших ресурсах за 1–2 дня. Это входит в onboarding. Если у вас Datadog / New Relic / Yandex Monitoring — работаем в них же, ничего перестраивать не надо.

DevOps часто строит инфру и CI/CD. SRE — отвечает за продакшен «в моменте»: дежурит, отвечает на алерты, делает post-mortem, тюнит SLI/SLO. Эти роли не пересекаются и хорошо работают в паре. Если ваш DevOps выгорел от ночных алертов — нанять SRE спасёт команду.

Время реакции на блокер (15 или 30 мин в зависимости от тарифа), время до mitigation (по severity), наличие post-mortem в течение 48 часов. В Enterprise — финансовая ответственность по SLA в договоре.

Да. У нас опыт работы в банковском секторе (ВТБ, Сбер, Росбанк, Société Générale). Знаем требования по хранению ПДн в РФ, изоляции платёжного контура, аудит-логам. В Enterprise-тарифе соответствие гарантируется в договоре.

Да. Договор с ИП или ООО, акт + счёт-фактура. NDA до старта переговоров.

СТАРТ · ДЕЖУРНЫЙ SRE

Опишите систему — стартуем через неделю.

Расскажите про backend и текущий стек observability: что есть, чего нет, что болит. Согласуем onboarding и стартовый график дежурств.

Telegram · WhatsApp
1 меспилот
80 000 ₽try-out
≤ 30 минреакция
1 неделядо старта