Naukowiec danych w Kyivstar.Tech

Opublikowano ponad 30 dni temu

4 wyświetlenia

Kyivstar.Tech

0 recenzji

Brak doświadczenia

Kyiv

Pełny etat

Przetłumaczone przez Google

Poszukujemy doświadczonego starszego/średniego analityka danych z pasją do dużych modeli językowych (LLM) i najnowocześniejszych badań nad sztuczną inteligencją. Na tym stanowisku będziesz skupiać się na projektowaniu i prototypowaniu potoków przygotowania danych, ścisłej współpracy z inżynierami danych w celu przekształcenia prototypów w skalowalne potoki produkcyjne oraz aktywnie opracowywać potoki uczenia modeli wraz z innymi utalentowanymi analitykami danych. Twoja praca bezpośrednio wpłynie

Poszukujemy doświadczonego starszego/średniego analityka danych z pasją do dużych modeli językowych (LLM) i najnowocześniejszych badań nad sztuczną inteligencją. Na tym stanowisku będziesz skupiać się na projektowaniu i prototypowaniu potoków przygotowania danych, ścisłej współpracy z inżynierami danych w celu przekształcenia prototypów w skalowalne potoki produkcyjne oraz aktywnie opracowywać potoki uczenia modeli wraz z innymi utalentowanymi analitykami danych. Twoja praca bezpośrednio wpłynie na jakość i możliwości naszych modeli, zapewniając, że dostarczamy im najwyższej jakości i najbardziej odpowiednie dane. Tworzone zbiory danych bezpośrednio określają możliwości, bezpieczeństwo i koszt modelu, zwiększając dokładność dalszych zadań, ograniczając straty szkoleniowe i skracając czas wprowadzania produktów na rynek dla zespołów produktowych.

O nas

Kyivstar.Tech to ukraińska hybrydowa firma informatyczna i mieszkaniec Diia.City. Jesteśmy spółką zależną Kyivstar, jednego z największych operatorów telekomunikacyjnych na Ukrainie.

Naszą misją jest zmienianie życia na Ukrainie i na całym świecie poprzez tworzenie rozwiązań technologicznych i produktów, które uwalniają potencjał biznesów i odpowiadają potrzebom użytkowników.

Ponad 500 specjalistów KS.Tech codziennie pracuje w różnych obszarach: rozwiązania mobilne i internetowe, a także projektowanie, rozwój, wsparcie i konserwacja techniczna wydajnych systemów i usług.

Wierzymy w innowacje, które naprawdę przynoszą zmiany jakościowe i stale rzucają wyzwanie konwencjonalnym podejściu i rozwiązaniom. Każdy z nas jest zwolennikiem kultury przedsiębiorczości, która pozwala nam nigdy się nie zatrzymywać, rozwijać i tworzyć coś nowego.

Co będziesz robić

Zaprojektuj, prototypuj i zweryfikuj etapy przygotowania i transformacji danych dla Szkoleniowe zbiory danych LLM, w tym czyszczenie i normalizacja tekstu, filtrowanie toksycznych treści, usuwanie duplikatów, usuwanie szumu, wykrywanie i usuwanie danych osobowych itp.
Tworzenie konkretnych zbiorów danych SFT/RLHF na podstawie istniejących danych, w tym powiększanie/oznaczanie danych pod okiem LLM jako nauczyciela.
Analizuj surowy tekst, kod i wielomodalne źródła danych na dużą skalę pod kątem jakości, zasięgu i trafność.
Opracuj heurystyki, reguły filtrowania i techniki czyszczenia, aby zmaksymalizować skuteczność danych szkoleniowych.
Współpracuj z inżynierami danych, aby przekazać prototypy do automatyzacji i skalowania.
Badaj i rozwijaj najlepsze praktyki oraz nowatorskie techniki w potokach szkoleniowych LLM.
Monitoruj i oceniaj wpływ jakości danych na wydajność modelu za pomocą eksperymentów i testów porównawczych.
Badaj i wdrażaj najlepsze praktyki w zbiorach danych na dużą skalę tworzenie modeli AI/ML.
Dokumentuj metodologie i dziel się spostrzeżeniami z wewnętrznymi zespołami.

Wymagane kwalifikacje i doświadczenie

Wykształcenie i doświadczenie:

Ponad 3 lata doświadczenia w nauce o danych lub uczeniu maszynowym, najlepiej ze szczególnym uwzględnieniem NLP.
Udokumentowane doświadczenie w wstępnym przetwarzaniu danych, czyszczeniu i inżynierii funkcji dla dużych zbiorów danych nieustrukturyzowanych (tekst, kod, dokumenty itp.).
Zaawansowany stopień (magisterski lub doktorat) w dziedzinie informatyki, Zdecydowanie preferowana jest lingwistyka obliczeniowa, uczenie maszynowe lub dziedzina pokrewna.

Doświadczenie NLP:

Dobra znajomość technik i algorytmów przetwarzania języka naturalnego.
Praktyczne doświadczenie z nowoczesnymi podejściami NLP, w tym osadzaniem modeli, wyszukiwaniem semantycznym, klasyfikacją tekstu, znakowaniem sekwencji (NER), transformatorami/LLM, RAG.
Znajomość szkoleń LLM i technik dostrajania oraz wymagań dotyczących danych.

ML i umiejętności programowania:

Umiejętność obsługi Pythona oraz powszechnych bibliotek do nauki o danych i NLP (pandas, NumPy, scikit-learn, spaCy, NLTK, langdetect, fasttext).
Doświadczenie w zakresie platform głębokiego uczenia się, takich jak PyTorch lub TensorFlow do budowania modeli NLP.
Umiejętność pisania wydajnego, czystego kodu i debugowania złożone problemy z modelami.

Dane i analityka:

Dobre zrozumienie analityki i statystyki danych.
Doświadczenie w projektowaniu eksperymentów, testowaniu A/B i testowaniu hipotez statystycznych w celu oceny wydajności modelu.
Wygodna praca z dużymi zbiorami danych, pisanie złożonych zapytań SQL i korzystanie z wizualizacji danych w celu podejmowania decyzji.

Wdrożenie i narzędzia:

Doświadczenie we wdrażaniu modeli uczenia maszynowego w środowisku produkcyjnym (np. przy użyciu interfejsów API REST lub potoków wsadowych) i integracji z aplikacjami w świecie rzeczywistym.
Znajomość koncepcji i narzędzi MLOps (kontrola wersji modeli/danych, CI/CD dla ML).
Doświadczenie z platformami chmurowymi (AWS, GCP lub Azure) i technologiami Big Data (Spark, Hadoop, Ray, Dask) do skalowania przetwarzania danych lub uczenia modeli to plus.

Komunikacja i osobowość:

Doświadczenie w pracy we współpracującym, wielofunkcyjnym środowisku.
Doskonałe umiejętności komunikacyjne umożliwiające przekazywanie złożonych wyników ML interesariuszom nietechnicznym i dokumentowanie metodologii.
Umiejętność szybkiego tworzenia prototypów i iteracji pomysłów

Dodatkiem byłby

Zaawansowane techniki NLP/ML :

Znajomość wskaźników oceny modeli językowych (perplexity, BLEU, ROUGE itp.) oraz technik optymalizacji modelu (kwantyzacja, destylacja wiedzy) w celu zwiększenia wydajności.
Zrozumienie FineWeb2 lub podobnego podejścia do potoku przetwarzania

Badania i społeczność:

Publikacje na konferencjach NLP/ML lub wkład w projekty NLP typu open source.
Aktywne uczestnictwo w społeczności AI lub wykazanie się ciągłym uczeniem się (np. konkursy Kaggle, współpraca badawcza)

Znajomość domeny i języka:

Znajomość języka ukraińskiego i kontekstu.
Zrozumienie niuansów kulturowych i językowych, które mogą pomóc w szkoleniu i ewaluacji modeli w kontekście ukraińskim.
Znajomość ukraińskich źródeł tekstowych i zbiorów danych lub doświadczenie w wielojęzycznym przetwarzaniu danych może być zaletą, biorąc pod uwagę cel naszego projektu.

MLOps i infrastruktura:

Praktyczne doświadczenie w zakresie konteneryzacji (Docker) i orkiestracji (Kubernetes) dla ML, a także narzędzi przepływu pracy ML (MLflow, Airflow).
Doświadczenie we współpracy z inżynierami MLOps w celu usprawnienia wdrażania i monitorowania modeli NLP.

Rozwiązywanie problemów:

Innowacyjny sposób myślenia umożliwiający kreatywne podejście do otwartych problemów związanych ze sztuczną inteligencją.
Komfort w szybko rozwijającym się środowisku badawczo-rozwojowym, w którym możesz dostosowywać się do nowych wyzwań, proponować rozwiązania i doprowadzać je do wdrożenia.

Co oferujemy

W biurze czy zdalnie – decyzja zależy od Ciebie. Możesz pracować z dowolnego miejsca, a my zorganizujemy Twoje miejsce pracy.
Zdalne wdrożenie.
Premie za wyniki.
Szkolimy pracowników z możliwością nauki poprzez bibliotekę firmy, zasoby wewnętrzne i programy partnerów.
Zdrowie i życie ubezpieczenie.
Program Wellbeing i psycholog korporacyjny.
Zwrot kosztów komunikacji mobilnej Kyivstar

Przetłumaczone przez Google

Brak doświadczenia

Kyiv

Pełny etat

Czy chcesz znaleźć odpowiednią pracę?

Nowe oferty pracy w Twoim Telegram

Subskrybuj

używamy cookies

Akceptować

Przedstawiamy pakiet bez prowizji za zatrudnienie!

Naukowiec danych w Kyivstar.Tech