Site Reliability Engineer (SRE) in Globaldev Group

Gepostet vor über 30 Tagen

4 Ansichten

Globaldev Group

0 Bewertungen

keine Erfahrung

Kyiv

AnforderungenErfahrung mit öffentlicher Cloud-Infrastruktur (z. B. AWS, Azure) und verwandten Technologien (z. B. Docker, Kubernetes, Cloud Formation); Gutes Verständnis von Speicher- und Datenbanksystemen, Caching und Warteschlangen, Netzwerken; Erfahrung in der Leitung technischer Wiederherstellungen. Arbeitskenntnisse in Service Management-Praktiken (ITIL) .Erfahrung beim Entwerfen, Analysieren und Beheben von Fehlern in verteilten Systemen; Fähigkeit zum Debuggen, Optimieren von Code und Automatisieren routinemäßiger Betriebsaufgaben; Solide Grundlage in der Linux- oder Windows-Verwaltung und Fehlerbehebung; Überwachungs-/Beobachtbarkeitstechnologien wie Prometheus, Grafana, Kibana, Elasticsearch sind von Vorteil; Verständnis von Service Level Agreements und Ziele; Hervorragende Beherrschung der englischen Sprache in Wort und Schrift; Solides Verständnis der Programmierprinzipien und gute Beherrschung von mindestens einer Programmiersprache, die für Infrastrukturarbeiten relevant ist; Was wir bieten; Direkte Zusammenarbeit mit dem bereits erfolgreichen, langfristigen und wachsenden Projekt; Wirklich wettbewerbsfähiges Gehalt; Arbeiten mit erstklassiger Ausrüstung; Hilfe und Unterstützung durch unser fürsorgliches HR-Team; Verantwortlichkeiten: Entwerfen, Entwickeln und Implementieren von Systemsoftware, die die Stabilität, Skalierbarkeit, Verfügbarkeit und Robustheit der Produkte und Dienstleistungen von Odido verbessert – jetzt und in den kommenden Jahren; Entwickeln von Mustern für Automatisierung, Instrumentierung usw ., die team- und produktübergreifend wiederverwendet werden können; Übernehmen Sie die Verantwortung für mehrere Dienste und Produkte; Automatisieren Sie Betriebsprobleme, anstatt sie manuell zu beheben; Entwickeln und implementieren Sie Strategien für eine effektive und proaktive Überwachung und Beobachtbarkeit unserer Systeme; Übernehmen Sie eine leitende technische Führung bei Anrufen bei größeren Vorfällen. Übernehmen Sie die technische Verantwortung für die Wiederherstellung von Dienstausfällen. Fördern Sie interne und Partnerressourcen für die schnelle Wiederherstellung des Dienstes durch die Implementierung bewährter technischer Korrekturen und Problemumgehungen. Nutzen Sie technisches Fachwissen, um Wiederherstellungspläne zu erstellen und umzusetzen. Verwalten Sie funktionsübergreifende technische Ressourcen nach schwerwiegenden Vorfällen, um sicherzustellen, dass die Ursache vollständig verstanden und dokumentiert wird und dass robuste Service-Schutzmaßnahmen vorhanden sind. Stellen Sie technisches Fachwissen bei der Störungsbeseitigung bereit und stellen Sie sicher, dass alle geeigneten Maßnahmen ergriffen werden, um wiederholte Vorfälle zu verhindern und die Wiederherstellungszeiten zu verkürzen. Systemprobleme in einer komplizierten verteilten Landschaft einordnen und beheben; an spontanen Rotationen teilnehmen, einschließlich Abdeckung am Wochenende oder außerhalb der Geschäftszeiten; Vorfälle überwachen und kontinuierlich verbessern. Reaktionsprozesse bei Odido; Befürworten Sie technische Best Practices im gesamten Unternehmen, betreuen Sie mehr Nachwuchsingenieure in den Bereichen Automatisierung und betriebliche Best Practices; tragen Sie durch Vorstellungsgespräche und Onboarding zum Wachstum von Odido bei;

keine Erfahrung

Kyiv

Wollen Sie den richtigen Job finden?

Neue Jobs in deinem Telegram

wir verwenden cookies

Akzeptieren

Einführung des "Keine Einstellungsgebühr"-Pakets!

Site Reliability Engineer (SRE) in Globaldev Group