Zapraszamy do dołączenia do naszego zespołu Główny Inżynier DanychZadania: projektowanie i wdrażanie lokalnego jeziora danych oraz tworzenie przepływów danych (strumień/partia) dla CV/Recsys/Forecast, z gwarancją jakości/dostępności, obserwowalność i kontrolowany koszt.Obszary odpowiedzialności: Architektura i modelowanie danych, podział na strefy (surowe/wyselekcjonowane/funkcje), kontrakty dotyczące danych; Potoki strumieniowe i wsadowe, prezentacje (sklepy z funkcjami/zestawy danych), SLA/SLO
Zapraszamy do dołączenia do naszego zespołu Główny Inżynier Danych
Zadania: projektowanie i wdrażanie lokalnego jeziora danych oraz tworzenie przepływów danych (strumień/partia) dla CV/Recsys/Forecast, z gwarancją jakości/dostępności, obserwowalność i kontrolowany koszt.
Obszary odpowiedzialności:
- Architektura i modelowanie danych, podział na strefy (surowe/wyselekcjonowane/funkcje), kontrakty dotyczące danych;
- Potoki strumieniowe i wsadowe, prezentacje (sklepy z funkcjami/zestawy danych), SLA/SLO;
- Integracja źródeł: POS/ERP/WMS/e-com/mobile, CDC (Debezium), schematy/katalog;
- Jakość/pochodzenie/metadane danych: reguły DQ, testy automatyczne, katalogowanie, kontrola PII;
- Produktywność/niezawodność: kanały działające w czasie niemal rzeczywistym, optymalizacja przechowywania/obliczeń, projektowanie uwzględniające koszty;
- Warstwa wektorowa do personalizacji: wersje osadzania, aktualizacje SLA, kompatybilność z serwowaniem online;
- Interakcja z DS/MLOps: wymagania dotyczące funkcji, wersjonowanie, poziomy usług.
OKR (przykłady):
- Stabilność reguły DQ 99% na tabelach krytycznych;
- SLA dotycząca dostępności funkcji na potrzeby wnioskowania jest spełniona w 99,5%;
- Incydenty o zerowym SRM w eksperymentach; pełna identyfikowalność.
Wymagania (niezbędne):
- 5 lat w inżynierii danych, ponad 2 lata w projektowaniu i obsłudze platform on-prem;
- Doświadczenie produkcyjne w zakresie przesyłania strumieniowego (Kafka/Redpanda, CDC przez Debezium) i przetwarzania wsadowego;
- Projekt domku nad jeziorem na Iceberg/Delta/Hudi z ACID, ewolucją schematu i podróże w czasie;
- Orkiestracja (Airflow lub Dagster), transformacje dbt Core;
- Okna sklepowe w warstwie ClickHouse i SQL (PostgreSQL/Trino/Presto); praktyki DQ (Wielkie Oczekiwania lub podobne), pochodzenie (OpenLineage), katalog/metadane (OpenMetadata lub DataHub);
- Infrastruktura: Kubernetes/OpenShift, Docker/Containerd, Terraform/Ansible, GitLab CI; obserwowalność: Prometheus/Grafana/Loki, OpenTelemetry;
- Wiodąca optymalizacja SQL i zapytań;
- Dostęp do danych osobowych i doświadczenie w audycie.
Będzie dodatkowym atutem:
- Handel detaliczny żywnością/FMCG, SLO dla zdarzeń związanych z kasą/ceną, integracja z ERP/WMS;
- Replikacja/fragmentowanie ClickHouse, kontrakty na dane jako kod, FinOps (ekonomika jednostkowa na poziomie tabeli/zadania);
- Indeksy wektorowe (pgvector/FAISS/Milvus) do personalizacji;
Stos techniczny (lokalny):
Pamięć i formaty
- Obiekt: MinIO | CEPH
- Stoły Lakehouse: Apache Iceberg | Jezioro Delty | Apache Hudi
- Formaty plików: Parkiet| ORC
Przetwarzanie i transformacje
- Klastry: Apache Spark lub Apache Flink lub Apache Beam
- Orkiestracja: Apache Airflow | Dagster
- Transformacje SQL: rdzeń dbt
Streaming i integracje
- Magistrala zdarzeń: Apache Kafka | Redpanda
- CDC: Debezium
Witryny sklepowe i warstwa SQL
- Analityczny DBMS: ClickHouse
- Operacyjny/OLTP i szeregi czasowe: PostgreSQL lub TimescaleDB
- Stowarzyszony silnik SQL: Trino | Presto
Jakość danych, katalog i pochodzenie
- Jakość danych: Wielkie oczekiwania lub Soda
- Pochodzenie: OpenLineage
- Katalog/metadane: OpenMetadata lub DataHub
Infrastruktura i działanie
- Kontenery i orkiestracja: Docker, Kubernetes lub OpenShift
- Infrastruktura jako kod: Terraform | Ansible
- CI/CD: GitLab CI
- Obserwowalność: Prometheus, Grafana, Loki, OpenTelemetry
Bezpieczeństwo i kontrola dostępu
- Sekrety: HashiCorp Vault | Zapieczętowane tajemnice
- Zasady dostępu: policy-as-code (OPA/Gatekeeper lub Kyverno)
Firma oferuje:
- zdalnym lub hybrydowym;
- zatrudnienie na warunkach kontraktu koncertowego lub w państwie (możliwa rezerwacja);
- płatny urlop wypoczynkowy w wymiarze 24 dni kalendarzowych, płatne zwolnienie lekarskie;
- regularna wypłata wynagrodzeń bez opóźnień i w ustalonych kwotach, regularna kontrola wynagrodzeń;
- możliwość rozwoju zawodowego i kariery;
- szkolenia.
Osoba kontaktowa: Kateryna, tel. data-vacancyphone="">0984567857 (t.me/KaterynaB_HR)