Приглашаем Вас присоединиться к нашей команде Ведущий инженер по даннымОбязанности: проектирование и развертывание локального озера данных и формирование потоков данных (поток/пакет) для CV/Recsys/Forecast, с гарантиями качества/доступности, наблюдаемость и контролируемые затраты.Области ответственности: Архитектура и моделирование данных, зонирование (необработанные/кураторские/функциональные), контракты данных; Потоковые и пакетные конвейеры, витрины (хранилища функций/витрины данных), SLA/SLO
Приглашаем Вас присоединиться к нашей команде Ведущий инженер по данным
Обязанности: проектирование и развертывание локального озера данных и формирование потоков данных (поток/пакет) для CV/Recsys/Forecast, с гарантиями качества/доступности, наблюдаемость и контролируемые затраты.
Области ответственности:
- Архитектура и моделирование данных, зонирование (необработанные/кураторские/функциональные), контракты данных;
- Потоковые и пакетные конвейеры, витрины (хранилища функций/витрины данных), SLA/SLO;
- Интеграция источников: POS/ERP/WMS/e-com/mobile, CDC (Дебезиум), схемы/каталог;
- Качество данных/происхождение/метаданные: правила DQ, автоматические тесты, каталогизация, контроль личных данных;
- Производительность/надежность: каналы практически в реальном времени, оптимизация хранения/вычислений, экономичный дизайн;
- Векторный слой для персонализации: версии вложений, обновления SLA, совместимость с онлайн-обслуживанием;
- Взаимодействие с DS/MLOps: требования к функциям, управление версиями, уровни обслуживания.
OKR (примеры):
- Стабильность правил DQ 99 % в критических таблицах;
- Соглашение об уровне обслуживания доступности функций для вывода выполнено на 99,5 %;
- Инциденты с нулевым SRM в экспериментах; полная отслеживаемость.
Требования (обязательные):
- 5+ лет в области разработки данных, 2+ года в проектировании и эксплуатации локальных платформ;
- Опыт производства в потоковой передаче (Kafka/Redpanda, CDC через Debezium) и пакетной обработке;
- Проектирование Lakehouse на Iceberg/Delta/Hudi с ACID, развитие схемы и путешествия во времени;
- Оркестрация (Airflow или Dagster), преобразования dbt Core;
- Витрины магазинов на уровне ClickHouse и SQL (PostgreSQL/Trino/Presto); практики DQ (Большие надежды или аналогичные), происхождение (OpenLineage), каталог/метаданные (OpenMetadata или DataHub);
- Инфраструктура: Kubernetes/OpenShift, Docker/Containerd, Terraform/Ansible, GitLab CI; наблюдаемость: Прометей/Графана/Локи, OpenTelemetry;
- Лучшая оптимизация SQL и запросов;
- Опыт доступа/PII и аудита.
Будет плюсом:
- Розничная торговля продуктами питания/FMCG, SLO для кассовых/ценовых событий, интеграция с ERP/WMS;
- Репликация/шардинг ClickHouse, контракты данных как код, FinOps (юнит-экономика на уровне таблицы/задания);
- Векторные индексы (pgvector/FAISS/Milvus) для персонализации;
Технический стек (локально):
Хранилище и форматы
- Объект: MinIO | CEPH
- Таблицы Lakehouse: Apache Iceberg | Озеро Дельта | Apache Hudi
- Форматы файлов: Паркет| ORC
Обработка и преобразование
- Кластеры: Apache Spark, Apache Flink или Apache Beam
- Оркестровка: Apache Airflow | Dagster
- Преобразования SQL: ядро dbt
Потоковая передача и интеграция
- Шина событий: Apache Kafka | Redpanda
- CDC: Debezium
Витрины и уровень SQL
- Аналитическая СУБД: ClickHouse
- Операционная/OLTP и временные ряды: PostgreSQL или TimescaleDB
- Объединенный механизм SQL: Trino | Presto
Качество данных, каталог и происхождение
- Качество данных: большие надежды или газировка
- Lineage: OpenLineage
- Каталог/метаданные: OpenMetadata или DataHub
Инфраструктура и эксплуатация
- Контейнеры и оркестрация: Docker, Kubernetes или OpenShift
- Инфраструктура как код: Terraform | Ansible
- CI/CD: GitLab CI
- Наблюдаемость: Prometheus, Grafana, Loki, OpenTelemetry
Безопасность и контроль доступа
- Секреты: HashiCorp Vault | Закрытые секреты
- Политики доступа: политика как код (OPA/Gatekeeper или Kyverno)
Компания предлагает:
- удаленная или гибридная работа;
- трудоустройство на условиях сдельного договора или в штате (возможно бронирование);
- ежегодный оплачиваемый отпуск продолжительностью 24 календарных дня, оплачиваемый отпуск по болезни;
- регулярная выплата заработной платы без задержек и в оговоренных размерах, регулярный пересмотр заработной платы;
- возможность профессионального и карьерного роста;
- обучение.
Контактное лицо: Екатерина, тел. data-vacancyphone="">0984567857 (t.me/KaterynaB_HR)