Datenwissenschaftler in Kyivstar.Tech

Gepostet vor über 30 Tagen

3 Ansichten

Kyivstar.Tech

0 Bewertungen

keine Erfahrung

Kyiv

Vollzeitarbeit

übersetzt von Google

Wir suchen einen erfahrenen Senior/Middle Data Scientist mit einer Leidenschaft für große Sprachmodelle (LLMs) und modernste KI-Forschung. In dieser Rolle konzentrieren Sie sich auf das Entwerfen und Prototyping von Datenvorbereitungspipelines, arbeiten eng mit Dateningenieuren zusammen, um Ihre Prototypen in skalierbare Produktionspipelines umzuwandeln, und entwickeln gemeinsam mit anderen talentierten Datenwissenschaftlern aktiv Modelltrainingspipelines. Ihre Arbeit wird sich direkt auf die Qu

Wir suchen einen erfahrenen Senior/Middle Data Scientist mit einer Leidenschaft für große Sprachmodelle (LLMs) und modernste KI-Forschung. In dieser Rolle konzentrieren Sie sich auf das Entwerfen und Prototyping von Datenvorbereitungspipelines, arbeiten eng mit Dateningenieuren zusammen, um Ihre Prototypen in skalierbare Produktionspipelines umzuwandeln, und entwickeln gemeinsam mit anderen talentierten Datenwissenschaftlern aktiv Modelltrainingspipelines. Ihre Arbeit wird sich direkt auf die Qualität und Leistungsfähigkeit unserer Modelle auswirken, indem Sie sicherstellen, dass wir ihnen die hochwertigsten und relevantesten Daten zur Verfügung stellen. Die von Ihnen erstellten Datensätze bestimmen direkt die Leistungsfähigkeit, Sicherheit und Kosten des Modells, erhöhen die Genauigkeit nachgelagerter Aufgaben, reduzieren Schulungsverschwendung und beschleunigen die Markteinführungszeit für Produktteams.

Über uns

Kyivstar.Tech ist ein ukrainisches Hybrid-IT-Unternehmen und ein Bewohner von Diia.City. Wir sind eine Tochtergesellschaft von Kyivstar, einem der größten Telekommunikationsbetreiber der Ukraine.

Unsere Mission ist es, das Leben in der Ukraine und auf der ganzen Welt zu verändern, indem wir technologische Lösungen und Produkte entwickeln, die das Potenzial von Unternehmen freisetzen und die Bedürfnisse der Benutzer erfüllen.

Über 500 KS.Tech-Spezialisten arbeiten täglich in verschiedenen Bereichen: Mobil- und Weblösungen sowie Design, Entwicklung, Support und technische Wartung von Hochleistungssystemen und -diensten.

Wir glauben an Innovationen, die wirklich qualitative Veränderungen bringen und herkömmliche Ansätze und Lösungen ständig in Frage stellen. Jeder von uns ist ein Anhänger der Unternehmerkultur, die es uns ermöglicht, niemals aufzuhören, uns weiterzuentwickeln und etwas Neues zu schaffen.

Was Sie tun werden

Entwerfen, prototypisieren und validieren Sie Datenvorbereitungs- und Transformationsschritte für LLM Trainingsdatensätze, einschließlich Bereinigung und Normalisierung von Text, Filterung toxischer Inhalte, Deduplizierung, Rauschunterdrückung, Erkennung und Löschung personenbezogener Daten usw.
Bildung spezifischer SFT/RLHF-Datensätze aus vorhandenen Daten, einschließlich Datenerweiterung/-kennzeichnung mit LLM als Lehrer.
Analysieren Sie umfangreiche Rohtext-, Code- und multimodale Datenquellen auf Qualität, Abdeckung und Relevanz.
Entwickeln Heuristiken, Filterregeln und Bereinigungstechniken, um die Effektivität von Trainingsdaten zu maximieren.
Arbeiten Sie mit Dateningenieuren zusammen, um Prototypen für die Automatisierung und Skalierung zu übergeben.
Erforschen und entwickeln Sie Best Practices und neuartige Techniken in LLM-Trainingspipelines.
Überwachen und bewerten Sie die Auswirkungen der Datenqualität auf die Modellleistung durch Experimente und Benchmarks.
Erforschen und implementieren Sie Best Practices bei der Erstellung großer Datensätze für KI/ML-Modelle.
Dokumentieren Sie Methoden und teilen Sie Erkenntnisse mit internen Teams.

Erforderliche Qualifikationen und Erfahrung

Ausbildung und Erfahrung:

3+ Jahre Erfahrung in Data Science oder maschinellem Lernen, vorzugsweise mit Schwerpunkt auf NLP.
Nachgewiesene Erfahrung in der Datenvorverarbeitung, -bereinigung und Feature-Engineering für große Datensätze unstrukturierter Daten (Text, Code, Dokumente usw.).
Ein fortgeschrittener Abschluss (Master oder Ph.D.) in Informatik, Computational Linguistik, maschinelles Lernen oder ein verwandtes Fachgebiet werden dringend bevorzugt.

NLP-Expertise:

Gute Kenntnisse der Techniken und Algorithmen zur Verarbeitung natürlicher Sprache.
Praktische Erfahrung mit modernen NLP-Ansätzen, einschließlich Einbettungsmodellen, semantischer Suche, Textklassifizierung, Sequenz-Tagging (NER), Transformatoren/LLMs, RAGs.
Vertrautheit mit LLM-Schulungs- und Feinabstimmungstechniken sowie Datenanforderungen.

ML- und Programmierkenntnisse:

Kenntnisse in Python und gängigen Datenwissenschafts- und NLP-Bibliotheken (Pandas, NumPy, scikit-learn, spaCy, NLTK, langdetect, fasttext).
Ausgeprägte Erfahrung mit Deep-Learning-Frameworks wie PyTorch oder TensorFlow zum Erstellen von NLP-Modellen.
Fähigkeit, effizienten, sauberen Code zu schreiben und komplexe Modelle zu debuggen Probleme.

Daten und Analysen:

Solide Kenntnisse in Datenanalyse und Statistik.
Erfahrung in experimentellem Design, A/B-Tests und statistischen Hypothesentests zur Bewertung der Modellleistung.
Komfortables Arbeiten mit großen Datensätzen, Schreiben komplexer SQL-Abfragen und Verwendung von Datenvisualisierung zur Entscheidungsfindung.

Bereitstellung & Tools:

Erfahrung in der Bereitstellung von Modellen für maschinelles Lernen in der Produktion (z. B. mithilfe von REST-APIs oder Batch-Pipelines) und der Integration in reale Anwendungen.
Vertrautheit mit MLOps-Konzepten und -Tools (Versionskontrolle für Modelle/Daten, CI/CD für ML).
Erfahrung mit Cloud-Plattformen (AWS, GCP oder Azure) und Big-Data-Technologien (Spark, Hadoop, Ray, Dask) zur Skalierung der Datenverarbeitung oder zum Modelltraining ist ein Pluspunkt.

Kommunikation und Persönlichkeit:

Erfahrung in einer kollaborativen, funktionsübergreifenden Umgebung.
Ausgeprägte Kommunikationsfähigkeiten, um komplexe ML-Ergebnisse an nicht-technische Interessengruppen zu vermitteln und Methoden zu dokumentieren.
Fähigkeit, schnell Prototypen zu erstellen und Ideen zu iterieren

A plus wäre

Fortgeschrittene NLP/ML-Techniken:

Vertrautheit mit Bewertungsmetriken für Sprachmodelle (Perplexität, BLEU, ROUGE usw.) und mit Techniken zur Modelloptimierung (Quantisierung, Wissensdestillation) zur Verbesserung der Effizienz.
Verständnis von FineWeb2 oder einem ähnlichen Verarbeitungspipeline-Ansatz

Forschung & Community:

Veröffentlichungen auf NLP/ML-Konferenzen oder Beiträge zu Open-Source-NLP-Projekten.
Aktive Teilnahme an der KI-Community oder nachgewiesenes kontinuierliches Lernen (z. B. Kaggle-Wettbewerbe, Forschungskooperationen)

Domänen- und Sprachkenntnisse:

Vertrautheit mit der ukrainischen Sprache und dem ukrainischen Kontext.
Verständnis kultureller und sprachlicher Nuancen, die das Training und die Bewertung von Modellen im ukrainischen Kontext beeinflussen könnten.
Kenntnisse ukrainischer Textquellen und Datensätze oder Erfahrung mit der mehrsprachigen Datenverarbeitung können angesichts des Schwerpunkts unseres Projekts von Vorteil sein.

MLOps & Infrastruktur:

Praktische Erfahrung mit Containerisierung (Docker) und Orchestrierung (Kubernetes) für ML sowie ML-Workflow-Tools (MLflow, Airflow).
Erfahrung in der Zusammenarbeit mit MLOps-Ingenieuren, um die Bereitstellung und Überwachung von NLP-Modellen zu optimieren.

Problemlösung:

Innovative Denkweise mit der Fähigkeit, offene KI-Probleme kreativ anzugehen.
Komfort in einer schnelllebigen Forschungs- und Entwicklungsumgebung, in der Sie sich an neue Herausforderungen anpassen, Lösungen vorschlagen und diese zur Umsetzung bringen können.

Was wir bieten

Büro oder remote – es liegt an Sie. Sie können von überall aus arbeiten, und wir richten Ihren Arbeitsplatz ein.
Remote-Onboarding.
Leistungsprämien.
Wir schulen Mitarbeiter mit der Möglichkeit, durch die Unternehmensbibliothek, interne Ressourcen und Programme von Partnern zu lernen.
Kranken- und Lebensversicherung.
Wellness-Programm und Unternehmen Psychologe.
Kostenerstattung für Kyivstar-Mobilkommunikation

übersetzt von Google

keine Erfahrung

Kyiv

Vollzeitarbeit

Wollen Sie den richtigen Job finden?

Neue Jobs in deinem Telegram

wir verwenden cookies

Akzeptieren

Einführung des "Keine Einstellungsgebühr"-Pakets!

Datenwissenschaftler in Kyivstar.Tech