Data Scientist
Data Scientist NLP/LLM Senior Remote
ID: 22997
5 часов назад
Активна
Циан
Формат работы
Удаленная работа
📄 Оригинальный текст вакансии
Senior Data Scientist (NLP/LLM)
#удаленка #senior
Компания: Циан
🔹Стек:
Пишем преимущественно на Python (Transformers, PyTorch, Numpy, Pandas, Sklearn, CatBoost).
Активно используем экосистему Hadoop (PySpark, Hive, Kafka), у нас свой большой кластер
Для автоматизации запусков наших пайплайнов используем Airflow
Для технических метрик — Grafana, для бизнес-метрик — FineBI.
🔹Основные задачи:
-NLP задачи как в виде обучения моделей, так и в виде разработки вспомогательных сущностей на python.
-Решение задач машинного обучения и написания кода для нагруженных сервисов на Python.
-Развитие текстовой строки новых AI механик на Циан. -Одна из целей команды - под ключ закрыть потребность общаться с человеком.
-Промпт тюнинг LLM с использованием API и внутренних сетей и fine tuning своих LLM
🔹Требования к кандидату:
-Образование: МФТИ, МГУ (желательно Мехмат, ВМК), ВШЭ, ИТМО, Бауманка, НГУ и др.
-Python: пишет легко читаемый и поддерживаемый код
SQL запросы на продвинутом уровне — оконные функции, оптимизация запросов
-Знаком с Apache стек: HDFS/Kafka/Spark (DF API)
-Опыт разработки NLP моделей: от tfidf до llm ( работа с pytorch, transformers)
-Опыт в DL: обучение/дообучение собственных глубоких нейросетей
-Классический ML: бустинги, линейные модели.
Имеет базовые знания CV: классификация, детекция, сегментация.
-Понимает ценность MLOps, и ценность переиспользования уже готовых решений внутри компании.
-Имеет кругозор или непосредственный опыт в реализации проектов для C и B пользователей.
-Способен самостоятельно коммуницировать с заказчиками и смежниками.
Контакты: https://www.cian.ru/vacancies/1287/
🔥 Подписаться на наши каналы / @best_itjob / @it_rab
[Ссылка: https://t.me/addlist/8QASR3uThEI2ZjVi]
🛠 Навыки
Airflow
CatBoost
FineBI
Grafana
HDFS
Hive
Kafka
LLM
NumPy
pandas
PySpark
Python (computer programming)
PyTorch
sklearn
Spark
SQL
🎯 Домены
AI
NLP
🤖 ИИ навыки
Apache Airflow
Apache HDFS
Apache Hive
Apache Kafka
Apache Spark
Boosting
CatBoost
Computer Vision
Deep Learning
Grafana
Large language models
Linear models
Machine Learning
MLOps
Model Fine-tuning
Natural language processing
NumPy
pandas
Prompt Engineering
PySpark
Python (computer programming)
PyTorch
scikit-learn
SQL
* Навыки определены автоматически с помощью нейросети
🤖 ИИ домены
Artificial Intelligence
Big Data
Data Science
Machine Learning
Natural Language Processing
Real estate
* Домены определены автоматически с помощью нейросети
📢 Информация о публикации
🔗 Оригинальные посты (1)
Канал:devs_it