Nächste Arbeit

Leitender Dateningenieur in ATB-market

Gepostet vor über 30 Tagen

4 Ansichten

ATB-market

ATB-market

0
0 Bewertungen
keine Erfahrung
Kharkiv
Vollzeitarbeit

übersetzt von Google

Wir laden Sie ein, unserem Team als Lead Data Engineer beizutreten.Aufgaben: Design und Bereitstellung von On-Prem Data Lakehouse und Bildung von Datenflüssen (Stream/Batch) für CV/Recsys/Forecast, mit garantierter Qualität/Verfügbarkeit, Beobachtbarkeit und Kontrolle Kosten.Verantwortungsbereiche: Datenarchitektur und -modellierung, Zonierung (roh/kuratiert/Feature), Datenverträge; Stream- und Batch-Pipelines, Showcases (Feature Store/Data Marts), SLA/SLO; Integration von Quellen: POS/ERP/WMS/e

Wir laden Sie ein, unserem Team als Lead Data Engineer beizutreten.

Aufgaben: Design und Bereitstellung von On-Prem Data Lakehouse und Bildung von Datenflüssen (Stream/Batch) für CV/Recsys/Forecast, mit garantierter Qualität/Verfügbarkeit, Beobachtbarkeit und Kontrolle Kosten.

Verantwortungsbereiche: 

  • Datenarchitektur und -modellierung, Zonierung (roh/kuratiert/Feature), Datenverträge; 
  • Stream- und Batch-Pipelines, Showcases (Feature Store/Data Marts), SLA/SLO; 
  • Integration von Quellen: POS/ERP/WMS/e-com/mobile, CDC (Debezium), Schemata/Katalog; 
  • Datenqualität/Herkunft/Metadaten: DQ-Regeln, automatische Tests, Katalogisierung, PII-Kontrolle; 
  • Produktivität/Zuverlässigkeit: Kanäle nahezu in Echtzeit, Speicher-/Berechnungsoptimierung, kostenbewusstes Design; 
  • Vektorebene für Personalisierung: Versionen von Einbettungen, SLA-Updates, Kompatibilität mit Online-Bereitstellung; 
  • Interaktion mit DS/MLOps: Funktionsanforderungen, Versionierung, Servicelevel.

OKR (Beispiele):

  1. DQ-Regelstabilität 99 % bei kritischen Tabellen; 
  2. SLA der Funktionsverfügbarkeit für Inferenz ist zu 99,5 % erfüllt; 
  3. Keine SRM-Vorfälle in Experimenten; vollständige Rückverfolgbarkeit.

Anforderungen (Muss):

  • 5+ Jahre in Data Engineering, 2+ Jahre in Design und Betrieb von On-Prem-Plattformen;
  • Produktionserfahrung in Streaming (Kafka/Redpanda, CDC über Debezium) und Batch-Verarbeitung;
  • Design von Lakehouse auf Iceberg/Delta/Hudi mit ACID, Schemaentwicklung und Zeitreise;
  • Orchestrierung (Airflow oder Dagster), dbt Core-Transformationen;
  • Schaufenster auf ClickHouse und SQL-Ebene (PostgreSQL/Trino/Presto); praktiziert DQ (Great Expectations oder ähnlich), Abstammung (OpenLineage), Verzeichnis/Metadaten (OpenMetadata oder DataHub); 
  • Infrastruktur: Kubernetes/OpenShift, Docker/Containerd, Terraform/Ansible, GitLab CI; Beobachtbarkeit: Prometheus/Grafana/Loki, OpenTelemetry; 
  • Führende SQL- und Abfrageoptimierung; 
  • Zugriff/PII- und Audit-Erfahrung.

Wäre ein Pluspunkt: 

  • Lebensmitteleinzelhandel/FMCG, SLO für Kassen-/Preisereignisse, Integration mit ERP/WMS; 
  • ClickHouse-Replikation/Sharding, Datenverträge als Code, FinOps (Einheitsökonomie auf Tabellen-/Jobebene); 
  • Vektorindizes (pgvector/FAISS/Milvus) zur Personalisierung; 

Technischer Stack (on-prem):

Speicher und Formate

  1. Objekt: MinIO | CEPH
  2. Lakehouse-Tabellen: Apache Iceberg | Deltasee | Apache Hudi
  3. Dateiformate: Parquet| ORC

Verarbeitung und Transformationen

  1. Cluster: Apache Spark oder Apache Flink oder Apache Beam
  2. Orchestrierung: Apache Airflow | Dagster
  3. SQL-Transformationen: dbt Core

Streaming und Integrationen

  1. Event Bus: Apache Kafka | Redpanda
  2. CDC: Debezium

Storefronts und SQL-Ebene

  1. Analytisches DBMS: ClickHouse
  2. Betrieblich/OLTP und Zeitreihen: PostgreSQL oder TimescaleDB
  3. Federated SQL Engine: Trino | Presto

Datenqualität, Katalog und Herkunft

  1. Datenqualität: Great Expectations oder Soda
  2. Herkunft: OpenLineage
  3. Katalog/Metadaten: OpenMetadata oder DataHub

Infrastruktur und Betrieb

  1. Container und Orchestrierung: Docker, Kubernetes oder OpenShift
  2. Infrastruktur als Code: Terraform | Ansible
  3. CI/CD: GitLab CI
  4. Beobachtbarkeit: Prometheus, Grafana, Loki, OpenTelemetry

Sicherheit und Zugriffskontrolle

  1. Geheimnisse: HashiCorp Vault | Sealed Secrets
  2. Zugriffsrichtlinien: Policy-as-Code (OPA/Gatekeeper oder Kyverno)

Das Unternehmen bietet:

  • remote oder hybrid Formatarbeit;
  • Anstellung im Rahmen eines Gig-Vertrags oder im Land (Reservierung möglich);
  • bezahlter Jahresurlaub von 24 Kalendertagen, bezahlter Krankheitsurlaub;
  • regelmäßige Lohnzahlung ohne Verzögerungen und in festgelegten Beträgen, regelmäßige Gehaltsüberprüfung;
  • Möglichkeit zur beruflichen und beruflichen Weiterentwicklung;
  • Schulungen.


Kontaktperson: Kateryna, Tel. data-vacancyphone="">0984567857 (t.me/KaterynaB_HR)

übersetzt von Google

keine Erfahrung
Kharkiv
Vollzeitarbeit
Wollen Sie den richtigen Job finden?
Neue Jobs in deinem Telegram
Abonnieren
wir verwenden cookies
Akzeptieren