Poszukujemy doświadczonego starszego/średniego analityka danych z pasją do dużych modeli językowych (LLM) i najnowocześniejszych badań nad sztuczną inteligencją. Na tym stanowisku będziesz skupiać się na projektowaniu i prototypowaniu potoków przygotowania danych, ścisłej współpracy z inżynierami danych w celu przekształcenia prototypów w skalowalne potoki produkcyjne oraz aktywnie opracowywać potoki uczenia modeli wraz z innymi utalentowanymi analitykami danych. Twoja praca bezpośrednio wpłynie
Poszukujemy doświadczonego starszego/średniego analityka danych z pasją do dużych modeli językowych (LLM) i najnowocześniejszych badań nad sztuczną inteligencją. Na tym stanowisku będziesz skupiać się na projektowaniu i prototypowaniu potoków przygotowania danych, ścisłej współpracy z inżynierami danych w celu przekształcenia prototypów w skalowalne potoki produkcyjne oraz aktywnie opracowywać potoki uczenia modeli wraz z innymi utalentowanymi analitykami danych. Twoja praca bezpośrednio wpłynie na jakość i możliwości naszych modeli, zapewniając, że dostarczamy im najwyższej jakości i najbardziej odpowiednie dane. Tworzone zbiory danych bezpośrednio określają możliwości, bezpieczeństwo i koszt modelu, zwiększając dokładność dalszych zadań, ograniczając straty szkoleniowe i skracając czas wprowadzania produktów na rynek dla zespołów produktowych.
O nas
Kyivstar.Tech to ukraińska hybrydowa firma informatyczna i mieszkaniec Diia.City. Jesteśmy spółką zależną Kyivstar, jednego z największych operatorów telekomunikacyjnych na Ukrainie.
Naszą misją jest zmienianie życia na Ukrainie i na całym świecie poprzez tworzenie rozwiązań technologicznych i produktów, które uwalniają potencjał biznesów i odpowiadają potrzebom użytkowników.
Ponad 500 specjalistów KS.Tech codziennie pracuje w różnych obszarach: rozwiązania mobilne i internetowe, a także projektowanie, rozwój, wsparcie i konserwacja techniczna wydajnych systemów i usług.
Wierzymy w innowacje, które naprawdę przynoszą zmiany jakościowe i stale rzucają wyzwanie konwencjonalnym podejściu i rozwiązaniom. Każdy z nas jest zwolennikiem kultury przedsiębiorczości, która pozwala nam nigdy się nie zatrzymywać, rozwijać i tworzyć coś nowego.
Co będziesz robić
- Zaprojektuj, prototypuj i zweryfikuj etapy przygotowania i transformacji danych dla Szkoleniowe zbiory danych LLM, w tym czyszczenie i normalizacja tekstu, filtrowanie toksycznych treści, usuwanie duplikatów, usuwanie szumu, wykrywanie i usuwanie danych osobowych itp.
- Tworzenie konkretnych zbiorów danych SFT/RLHF na podstawie istniejących danych, w tym powiększanie/oznaczanie danych pod okiem LLM jako nauczyciela.
- Analizuj surowy tekst, kod i wielomodalne źródła danych na dużą skalę pod kątem jakości, zasięgu i trafność.
- Opracuj heurystyki, reguły filtrowania i techniki czyszczenia, aby zmaksymalizować skuteczność danych szkoleniowych.
- Współpracuj z inżynierami danych, aby przekazać prototypy do automatyzacji i skalowania.
- Badaj i rozwijaj najlepsze praktyki oraz nowatorskie techniki w potokach szkoleniowych LLM.
- Monitoruj i oceniaj wpływ jakości danych na wydajność modelu za pomocą eksperymentów i testów porównawczych.
- Badaj i wdrażaj najlepsze praktyki w zbiorach danych na dużą skalę tworzenie modeli AI/ML.
- Dokumentuj metodologie i dziel się spostrzeżeniami z wewnętrznymi zespołami.
Wymagane kwalifikacje i doświadczenie
Wykształcenie i doświadczenie:
- Ponad 3 lata doświadczenia w nauce o danych lub uczeniu maszynowym, najlepiej ze szczególnym uwzględnieniem NLP.
- Udokumentowane doświadczenie w wstępnym przetwarzaniu danych, czyszczeniu i inżynierii funkcji dla dużych zbiorów danych nieustrukturyzowanych (tekst, kod, dokumenty itp.).
- Zaawansowany stopień (magisterski lub doktorat) w dziedzinie informatyki, Zdecydowanie preferowana jest lingwistyka obliczeniowa, uczenie maszynowe lub dziedzina pokrewna.
Doświadczenie NLP:
- Dobra znajomość technik i algorytmów przetwarzania języka naturalnego.
- Praktyczne doświadczenie z nowoczesnymi podejściami NLP, w tym osadzaniem modeli, wyszukiwaniem semantycznym, klasyfikacją tekstu, znakowaniem sekwencji (NER), transformatorami/LLM, RAG.
- Znajomość szkoleń LLM i technik dostrajania oraz wymagań dotyczących danych.
ML i umiejętności programowania:
- Umiejętność obsługi Pythona oraz powszechnych bibliotek do nauki o danych i NLP (pandas, NumPy, scikit-learn, spaCy, NLTK, langdetect, fasttext).
- Doświadczenie w zakresie platform głębokiego uczenia się, takich jak PyTorch lub TensorFlow do budowania modeli NLP.
- Umiejętność pisania wydajnego, czystego kodu i debugowania złożone problemy z modelami.
Dane i analityka:
- Dobre zrozumienie analityki i statystyki danych.
- Doświadczenie w projektowaniu eksperymentów, testowaniu A/B i testowaniu hipotez statystycznych w celu oceny wydajności modelu.
- Wygodna praca z dużymi zbiorami danych, pisanie złożonych zapytań SQL i korzystanie z wizualizacji danych w celu podejmowania decyzji.
Wdrożenie i narzędzia:
- Doświadczenie we wdrażaniu modeli uczenia maszynowego w środowisku produkcyjnym (np. przy użyciu interfejsów API REST lub potoków wsadowych) i integracji z aplikacjami w świecie rzeczywistym.
- Znajomość koncepcji i narzędzi MLOps (kontrola wersji modeli/danych, CI/CD dla ML).
- Doświadczenie z platformami chmurowymi (AWS, GCP lub Azure) i technologiami Big Data (Spark, Hadoop, Ray, Dask) do skalowania przetwarzania danych lub uczenia modeli to plus.
Komunikacja i osobowość:
- Doświadczenie w pracy we współpracującym, wielofunkcyjnym środowisku.
- Doskonałe umiejętności komunikacyjne umożliwiające przekazywanie złożonych wyników ML interesariuszom nietechnicznym i dokumentowanie metodologii.
- Umiejętność szybkiego tworzenia prototypów i iteracji pomysłów
Dodatkiem byłby
Zaawansowane techniki NLP/ML :
- Znajomość wskaźników oceny modeli językowych (perplexity, BLEU, ROUGE itp.) oraz technik optymalizacji modelu (kwantyzacja, destylacja wiedzy) w celu zwiększenia wydajności.
- Zrozumienie FineWeb2 lub podobnego podejścia do potoku przetwarzania
Badania i społeczność:
- Publikacje na konferencjach NLP/ML lub wkład w projekty NLP typu open source.
- Aktywne uczestnictwo w społeczności AI lub wykazanie się ciągłym uczeniem się (np. konkursy Kaggle, współpraca badawcza)
Znajomość domeny i języka:
- Znajomość języka ukraińskiego i kontekstu.
- Zrozumienie niuansów kulturowych i językowych, które mogą pomóc w szkoleniu i ewaluacji modeli w kontekście ukraińskim.
- Znajomość ukraińskich źródeł tekstowych i zbiorów danych lub doświadczenie w wielojęzycznym przetwarzaniu danych może być zaletą, biorąc pod uwagę cel naszego projektu.
MLOps i infrastruktura:
- Praktyczne doświadczenie w zakresie konteneryzacji (Docker) i orkiestracji (Kubernetes) dla ML, a także narzędzi przepływu pracy ML (MLflow, Airflow).
- Doświadczenie we współpracy z inżynierami MLOps w celu usprawnienia wdrażania i monitorowania modeli NLP.
Rozwiązywanie problemów:
- Innowacyjny sposób myślenia umożliwiający kreatywne podejście do otwartych problemów związanych ze sztuczną inteligencją.
- Komfort w szybko rozwijającym się środowisku badawczo-rozwojowym, w którym możesz dostosowywać się do nowych wyzwań, proponować rozwiązania i doprowadzać je do wdrożenia.
Co oferujemy
- W biurze czy zdalnie – decyzja zależy od Ciebie. Możesz pracować z dowolnego miejsca, a my zorganizujemy Twoje miejsce pracy.
- Zdalne wdrożenie.
- Premie za wyniki.
- Szkolimy pracowników z możliwością nauki poprzez bibliotekę firmy, zasoby wewnętrzne i programy partnerów.
- Zdrowie i życie ubezpieczenie.
- Program Wellbeing i psycholog korporacyjny.
- Zwrot kosztów komunikacji mobilnej Kyivstar