ETL/ELT-пайплайны
Airflow, Prefect, Dagster: расписание, мониторинг, retry, алерты. Источники: API, БД, файлы, 1С, маркетплейсы. Целевое хранилище: DWH, ClickHouse, BigQuery.
Разработка ETL-пайплайнов — сбор, трансформация, загрузка данных из любых источников. Airflow, dbt, Kafka, Python. От 800 000 ₽, MVP за 4 недели. Замена ручных выгрузок из 1С, Excel и API.
Airflow, Prefect, Dagster: расписание, мониторинг, retry, алерты. Источники: API, БД, файлы, 1С, маркетплейсы. Целевое хранилище: DWH, ClickHouse, BigQuery.
Проектирование хранилища: star schema, dimensional modeling, SCD. dbt для трансформаций. Версионирование SQL, тесты, документация.
Kafka Connect, Kafka Streams, Flink. CDC (Change Data Capture) из PostgreSQL/MySQL. Обработка событий в реальном времени.
Подключение Metabase, Superset, Grafana к вашему DWH. Дашборды, отчёты, алерты. Замена ручных Excel-отчётов.
Инвентаризация источников, форматов, объёмов. Карта данных, требования к SLA. 3-5 дней.
Первый ETL: самый ценный источник → DWH → дашборд. Airflow + dbt + Metabase. Работает в проде.
Подключаем остальные источники: API, 1С, файлы, CDC. Каждый источник — отдельный DAG.
Алерты при сбоях, data quality checks, lineage. SLA на свежесть данных: 5 мин, 1 час, 1 день.
Ручная выгрузка: 2-4 часа/день, ошибки, задержки. ETL: автоматически, по расписанию, с проверкой качества. Окупается за 1-2 месяца за счёт экономии времени аналитиков.
Любые: REST API (маркетплейсы, CRM, рекламные кабинеты), базы данных (PostgreSQL, MySQL, MongoDB, Oracle), файлы (CSV, Excel, XML), 1С, Google Sheets, S3. Пишем кастомные коннекторы.
Airflow — стандарт индустрии, максимальная гибкость. Prefect — проще для небольших проектов. Dagster — если нужен data lineage из коробки. Подберём под ваш масштаб.
MVP (1-3 источника, дашборд) — от 800 000 ₽ за 4-6 недель. Data Platform (10+ источников, DWH, BI) — от 2 500 000 ₽. Enterprise — от 5 000 000 ₽.
Расскажите, откуда и куда нужно гонять данные — предложим архитектуру за 3 дня.