Вчений з даних в Kyivstar.Tech

Розміщено більше 30 днів тому

5 переглядів

Kyivstar.Tech

0 відгуків

Без досвіду

Київ

Повний робочий день

Перекладено Google

Ми пошукаємо досвідченого старшого/середнього фахівця з обробки даних із пристрастю до великих мовних моделей (LLM) і передових досліджень ШІ. На цій посаді ви зосередитесь на розробці та створенні прототипів конвеєрів підготовки даних, тісно співпрацюючи з інженерами даних, щоб перетворити ваші прототипи на масштабовані виробничі конвеєри та активно розроблятимете конвеєри навчання моделей разом з іншими талановитими спеціалістами з обробки даних. Ваша робота безпосередньо вплине на якість і мо

Ми пошукаємо досвідченого старшого/середнього фахівця з обробки даних із пристрастю до великих мовних моделей (LLM) і передових досліджень ШІ. На цій посаді ви зосередитесь на розробці та створенні прототипів конвеєрів підготовки даних, тісно співпрацюючи з інженерами даних, щоб перетворити ваші прототипи на масштабовані виробничі конвеєри та активно розроблятимете конвеєри навчання моделей разом з іншими талановитими спеціалістами з обробки даних. Ваша робота безпосередньо вплине на якість і можливості наших моделей, забезпечуючи надання їм найякісніших і релевантних даних. Набори даних, які ви створюєте, безпосередньо визначають можливості моделі, безпеку та вартість, підвищуючи точність подальших завдань, зменшуючи витрати на навчання та прискорюючи час виходу на ринок для команд продуктів.

Про нас

Kyivstar.Tech – українська гібридна ІТ-компанія та резидент Дія.City. Ми є дочірньою компанією Київстар, одного з найбільших телекомунікаційних операторів України.

Наша місія — змінити життя в Україні та в усьому світі, створюючи технологічні рішення та продукти, які розкривають потенціал бізнесу та задовольняють потреби користувачів.

Понад 500 спеціалістів KS.Tech щодня працюють у різних сферах: мобільні та веб-рішення, а також дизайн, розробка, підтримка та технічне обслуговування високопродуктивних систем і послуг.

Ми віримо в інновації, які справді приносять якісні зміни та постійно кидають виклик традиційним підходам і рішення. Кожен із нас є прихильником підприємницької культури, яка дозволяє нам ніколи не зупинятися, розвиватися та створювати щось нове.

Що ви будете робити

Розробляти, прототипувати та перевіряти дані етапи підготовки та трансформації для навчальних наборів даних LLM, включаючи очищення та нормалізацію тексту, фільтрацію токсичного вмісту, дедуплікацію, усунення шумів, виявлення та видалення особистих даних тощо.
Формування спеціальних наборів даних SFT/RLHF із існуючих даних, включаючи доповнення/маркування даних за допомогою LLM як викладача.
Аналіз великомасштабного необробленого тексту, коду, і мультимодальні джерела даних для якості, охоплення та відповідності.
Розробити евристики, правила фільтрації та методи очищення, щоб максимізувати ефективність навчальних даних.
Співпрацювати з інженерами даних, щоб передати прототипи для автоматизації та масштабування.
Досліджувати та розробляти найкращі практики та нові методи в конвеєрах навчання LLM.
Моніторинг і оцінювати вплив якості даних на продуктивність моделі за допомогою експериментів і порівняльних показників.
Досліджувати та впроваджувати найкращі методи створення великомасштабних наборів даних для моделей AI/ML.
Документувати методології та ділитися думками з внутрішніми командами.

Кваліфікація та досвід потрібно

Освіта та досвід:

3+ роки досвіду в науці про дані або машинному навчанні, бажано з фокусом на NLP.
Перевірений досвід у попередній обробці даних, очищенні та розробці функцій для великомасштабних наборів неструктурованих даних (текст, код, документи тощо).
Вчений ступінь (магістр) або PhD) у комп’ютерних науках, комп’ютерній лінгвістиці, машинному навчанні чи в спорідненій галузі є дуже бажаною.

Досвід НЛП:

Добре знання технік і алгоритмів обробки природної мови.
Практичний досвід роботи з сучасними підходами НЛП, зокрема моделями вбудовування, семантичним пошуком, класифікацією тексту, додавання тегів послідовності (NER), трансформаторами/LLM, RAG.
Знайомство з навчанням LLM і методами тонкого налаштування, а також даними вимоги.

ML та навички програмування:

Володіння Python і бібліотеками загальної науки про дані та NLP (pandas, NumPy, scikit-learn, spaCy, NLTK, langdetect, fasttext).
Великий досвід роботи з фреймворками глибокого навчання, такими як PyTorch або TensorFlow, для створення моделей NLP.
Здатність ефективно писати, очистити код і налагодити складні проблеми моделі.

Дані та аналітика:

Досконале розуміння аналітики даних і статистики.
Досвід експериментального дизайну, A/B-тестування та перевірки статистичних гіпотез для оцінки продуктивності моделі.
Зручна робота з великими наборами даних, написання складних запитів SQL і використання візуалізації даних для обґрунтованого рішення.

Розгортання та інструменти:

Досвід розгортання моделей машинного навчання у виробництві (наприклад, з використанням REST API або пакетних конвеєрів) та інтеграції з реальними програмами.
Знайомство з концепціями та інструментами MLOps (контроль версій для моделей/даних, CI/CD для ML).
Досвід роботи з хмарними платформами (AWS, GCP, або Azure) і технології великих даних (Spark, Hadoop, Ray, Dask) для масштабування обробки даних або навчання моделей — це плюс.

Комунікація та особистість:

Досвід роботи в спільному міжфункціональному середовищі.
Сильні навички спілкування, щоб передати складні результати ML нетехнічним зацікавленим сторонам і документувати методології.
Здатність швидко створювати прототипи та повторювати ідеї

Плюс буде

Розширені методи NLP/ML:

Знайомство з оціночними метриками для мовних моделей (здивування, BLEU, ROUGE тощо) і техніками оптимізації моделі (квантування, дистиляція знань) для підвищення ефективності.
Розуміння FineWeb2 або подібного підходу до конвеєра обробки

Дослідження та спільнота:

Публікації на конференціях NLP/ML або внесок у проекти NLP з відкритим кодом.
Активна участь у спільноті ШІ чи продемонстроване постійне навчання (наприклад, змагання Kaggle, співпраця в дослідженнях)

Знання домену та мови:

Знайомство з українською мовою та контекстом.
Розуміння культурних і мовних нюансів, які могли б стати основою для навчання моделі та оцінювання в українському контексті.
Знання українських текстових джерел і наборів даних або досвід багатомовної обробки даних, може бути перевагою, враховуючи наш проект фокус.

MLOps та інфраструктура:

Практичний досвід роботи з контейнеризацією (Docker) і оркестровкою (Kubernetes) для ML, а також інструментами робочого циклу ML (MLflow, Airflow).
Досвід роботи разом з інженерами MLOps для оптимізації розгортання та моніторингу моделей NLP.

Вирішення проблем:

Інноваційне мислення зі здатністю творчо підходити до відкритих проблем ШІ.
Комфорт у швидко динамічному середовищі досліджень і розробок, де ви можете адаптуватися до нових викликів, пропонувати рішення та спонукати їх до реалізації.

Що ми пропонуємо

Офіс чи віддалено – вирішувати вам. Ви можете працювати звідки завгодно, а ми організуємо ваше робоче місце.
Віддалене навчання.
Бонуси за продуктивність.
Ми навчаємо співробітників із можливістю навчатися за допомогою бібліотеки компанії, внутрішніх ресурсів і програм від партнерів.
Здоров’я та страхування життя.
Програма добробуту та корпоративний психолог.
Відшкодування витрат на мобільний зв'язок Київстар

Перекладено Google

Без досвіду

Київ

Повний робочий день

Хочете знайти підходящу роботу?

Нові вакансії у вашому Telegram

Підписатись

Ми використовуємо cookies

Прийняти

Знайомтеся з пакетом без комісії за найм!

Вчений з даних в Kyivstar.Tech