Następna praca

Naukowiec danych w Kyivstar.Tech

Opublikowano ponad 30 dni temu

4 wyświetlenia

Kyivstar.Tech

Kyivstar.Tech

0
0 recenzji
Brak doświadczenia
Kyiv
Pełny etat

Przetłumaczone przez Google

Poszukujemy doświadczonego starszego/średniego analityka danych z pasją do dużych modeli językowych (LLM) i najnowocześniejszych badań nad sztuczną inteligencją. Na tym stanowisku będziesz skupiać się na projektowaniu i prototypowaniu potoków przygotowania danych, ścisłej współpracy z inżynierami danych w celu przekształcenia prototypów w skalowalne potoki produkcyjne oraz aktywnie opracowywać potoki uczenia modeli wraz z innymi utalentowanymi analitykami danych. Twoja praca bezpośrednio wpłynie

Poszukujemy doświadczonego starszego/średniego analityka danych z pasją do dużych modeli językowych (LLM) i najnowocześniejszych badań nad sztuczną inteligencją. Na tym stanowisku będziesz skupiać się na projektowaniu i prototypowaniu potoków przygotowania danych, ścisłej współpracy z inżynierami danych w celu przekształcenia prototypów w skalowalne potoki produkcyjne oraz aktywnie opracowywać potoki uczenia modeli wraz z innymi utalentowanymi analitykami danych. Twoja praca bezpośrednio wpłynie na jakość i możliwości naszych modeli, zapewniając, że dostarczamy im najwyższej jakości i najbardziej odpowiednie dane. Tworzone zbiory danych bezpośrednio określają możliwości, bezpieczeństwo i koszt modelu, zwiększając dokładność dalszych zadań, ograniczając straty szkoleniowe i skracając czas wprowadzania produktów na rynek dla zespołów produktowych.

O nas

Kyivstar.Tech to ukraińska hybrydowa firma informatyczna i mieszkaniec Diia.City. Jesteśmy spółką zależną Kyivstar, jednego z największych operatorów telekomunikacyjnych na Ukrainie.

Naszą misją jest zmienianie życia na Ukrainie i na całym świecie poprzez tworzenie rozwiązań technologicznych i produktów, które uwalniają potencjał biznesów i odpowiadają potrzebom użytkowników.

Ponad 500 specjalistów KS.Tech codziennie pracuje w różnych obszarach: rozwiązania mobilne i internetowe, a także projektowanie, rozwój, wsparcie i konserwacja techniczna wydajnych systemów i usług.

Wierzymy w innowacje, które naprawdę przynoszą zmiany jakościowe i stale rzucają wyzwanie konwencjonalnym podejściu i rozwiązaniom. Każdy z nas jest zwolennikiem kultury przedsiębiorczości, która pozwala nam nigdy się nie zatrzymywać, rozwijać i tworzyć coś nowego.

Co będziesz robić

  • Zaprojektuj, prototypuj i zweryfikuj etapy przygotowania i transformacji danych dla Szkoleniowe zbiory danych LLM, w tym czyszczenie i normalizacja tekstu, filtrowanie toksycznych treści, usuwanie duplikatów, usuwanie szumu, wykrywanie i usuwanie danych osobowych itp.
  • Tworzenie konkretnych zbiorów danych SFT/RLHF na podstawie istniejących danych, w tym powiększanie/oznaczanie danych pod okiem LLM jako nauczyciela.
  • Analizuj surowy tekst, kod i wielomodalne źródła danych na dużą skalę pod kątem jakości, zasięgu i trafność.
  • Opracuj heurystyki, reguły filtrowania i techniki czyszczenia, aby zmaksymalizować skuteczność danych szkoleniowych.
  • Współpracuj z inżynierami danych, aby przekazać prototypy do automatyzacji i skalowania.
  • Badaj i rozwijaj najlepsze praktyki oraz nowatorskie techniki w potokach szkoleniowych LLM.
  • Monitoruj i oceniaj wpływ jakości danych na wydajność modelu za pomocą eksperymentów i testów porównawczych.
  • Badaj i wdrażaj najlepsze praktyki w zbiorach danych na dużą skalę tworzenie modeli AI/ML.
  • Dokumentuj metodologie i dziel się spostrzeżeniami z wewnętrznymi zespołami.

Wymagane kwalifikacje i doświadczenie

Wykształcenie i doświadczenie:

  • Ponad 3 lata doświadczenia w nauce o danych lub uczeniu maszynowym, najlepiej ze szczególnym uwzględnieniem NLP.
  • Udokumentowane doświadczenie w wstępnym przetwarzaniu danych, czyszczeniu i inżynierii funkcji dla dużych zbiorów danych nieustrukturyzowanych (tekst, kod, dokumenty itp.).
  • Zaawansowany stopień (magisterski lub doktorat) w dziedzinie informatyki, Zdecydowanie preferowana jest lingwistyka obliczeniowa, uczenie maszynowe lub dziedzina pokrewna.

Doświadczenie NLP:

  • Dobra znajomość technik i algorytmów przetwarzania języka naturalnego.
  • Praktyczne doświadczenie z nowoczesnymi podejściami NLP, w tym osadzaniem modeli, wyszukiwaniem semantycznym, klasyfikacją tekstu, znakowaniem sekwencji (NER), transformatorami/LLM, RAG.
  • Znajomość szkoleń LLM i technik dostrajania oraz wymagań dotyczących danych.

ML i umiejętności programowania:

  • Umiejętność obsługi Pythona oraz powszechnych bibliotek do nauki o danych i NLP (pandas, NumPy, scikit-learn, spaCy, NLTK, langdetect, fasttext).
  • Doświadczenie w zakresie platform głębokiego uczenia się, takich jak PyTorch lub TensorFlow do budowania modeli NLP.
  • Umiejętność pisania wydajnego, czystego kodu i debugowania złożone problemy z modelami.

Dane i analityka:

  • Dobre zrozumienie analityki i statystyki danych.
  • Doświadczenie w projektowaniu eksperymentów, testowaniu A/B i testowaniu hipotez statystycznych w celu oceny wydajności modelu.
  • Wygodna praca z dużymi zbiorami danych, pisanie złożonych zapytań SQL i korzystanie z wizualizacji danych w celu podejmowania decyzji.

Wdrożenie i narzędzia:

  • Doświadczenie we wdrażaniu modeli uczenia maszynowego w środowisku produkcyjnym (np. przy użyciu interfejsów API REST lub potoków wsadowych) i integracji z aplikacjami w świecie rzeczywistym.
  • Znajomość koncepcji i narzędzi MLOps (kontrola wersji modeli/danych, CI/CD dla ML).
  • Doświadczenie z platformami chmurowymi (AWS, GCP lub Azure) i technologiami Big Data (Spark, Hadoop, Ray, Dask) do skalowania przetwarzania danych lub uczenia modeli to plus.

Komunikacja i osobowość:

  • Doświadczenie w pracy we współpracującym, wielofunkcyjnym środowisku.
  • Doskonałe umiejętności komunikacyjne umożliwiające przekazywanie złożonych wyników ML interesariuszom nietechnicznym i dokumentowanie metodologii.
  • Umiejętność szybkiego tworzenia prototypów i iteracji pomysłów

Dodatkiem byłby

Zaawansowane techniki NLP/ML :

  • Znajomość wskaźników oceny modeli językowych (perplexity, BLEU, ROUGE itp.) oraz technik optymalizacji modelu (kwantyzacja, destylacja wiedzy) w celu zwiększenia wydajności.
  • Zrozumienie FineWeb2 lub podobnego podejścia do potoku przetwarzania

Badania i społeczność:

  • Publikacje na konferencjach NLP/ML lub wkład w projekty NLP typu open source.
  • Aktywne uczestnictwo w społeczności AI lub wykazanie się ciągłym uczeniem się (np. konkursy Kaggle, współpraca badawcza)

Znajomość domeny i języka:

  • Znajomość języka ukraińskiego i kontekstu.
  • Zrozumienie niuansów kulturowych i językowych, które mogą pomóc w szkoleniu i ewaluacji modeli w kontekście ukraińskim.
  • Znajomość ukraińskich źródeł tekstowych i zbiorów danych lub doświadczenie w wielojęzycznym przetwarzaniu danych może być zaletą, biorąc pod uwagę cel naszego projektu.

MLOps i infrastruktura:

  • Praktyczne doświadczenie w zakresie konteneryzacji (Docker) i orkiestracji (Kubernetes) dla ML, a także narzędzi przepływu pracy ML (MLflow, Airflow).
  • Doświadczenie we współpracy z inżynierami MLOps w celu usprawnienia wdrażania i monitorowania modeli NLP.

Rozwiązywanie problemów:

  • Innowacyjny sposób myślenia umożliwiający kreatywne podejście do otwartych problemów związanych ze sztuczną inteligencją.
  • Komfort w szybko rozwijającym się środowisku badawczo-rozwojowym, w którym możesz dostosowywać się do nowych wyzwań, proponować rozwiązania i doprowadzać je do wdrożenia.

Co oferujemy

  • W biurze czy zdalnie – decyzja zależy od Ciebie. Możesz pracować z dowolnego miejsca, a my zorganizujemy Twoje miejsce pracy.
  • Zdalne wdrożenie.
  • Premie za wyniki.
  • Szkolimy pracowników z możliwością nauki poprzez bibliotekę firmy, zasoby wewnętrzne i programy partnerów.
  • Zdrowie i życie ubezpieczenie.
  • Program Wellbeing i psycholog korporacyjny.
  • Zwrot kosztów komunikacji mobilnej Kyivstar

Przetłumaczone przez Google

Brak doświadczenia
Kyiv
Pełny etat
Czy chcesz znaleźć odpowiednią pracę?
Nowe oferty pracy w Twoim Telegram
Subskrybuj
używamy cookies
Akceptować