Data Engineer
Data Engineer Senior Remote
ID: 21090
6 часов назад
Активна
Centicore
Россия
350 000 ₽ - 380 000 ₽
Тип занятости
Полная занятость
Формат работы
Удаленная работа
📞Способы связи
📄 Оригинальный текст вакансии
#вакансия #fulltime #remote #senior #dataengineer #llm #rag
Компания Centicore💙 находится в поисках Senior Data Engineer (LLM / RAG).
Мы занимаемся продуктовой и платформенной разработкой под ключ для крупных заказчиков. В рамках проекта команда строит промышленную data-платформу для работы с большими языковыми моделями (LLM) и Retrieval-Augmented Generation (RAG).
Формат работы: Удаленка по РФ
Вилка: 350–380k на руки (в зависимости от опыта и пожеланий кандидата)
Уровень: Senior
🔷 Требования:
Отличное знание Python: структуры данных, итераторы, декораторы,
асинхронное и параллельное программирование, OOP и FP
Уверенное владение SQL: сложные запросы, CTE, оконные функции
Опыт работы с vector DB: OpenSearch, Qdrant
Опыт построения batch и streaming-сервисов для расчёта embeddings и загрузки их в векторные хранилища
Понимание принципов RAG и обогащения LLM контекстными данными
Опыт разработки промышленных ETL-сервисов на Python
Опыт оркестрации пайплайнов: Apache Airflow, Argo Workflows
Хорошее знание Apache Spark / PySpark (производительность, отладка, Spark History Server)
Опыт асинхронного взаимодействия с веб-сервисами по REST API (aiohttp, httpx)
Опыт работы с PostgreSQL, Oracle
Опыт работы с Big Data-хранилищами: Hadoop/HDFS, S3, Hive, Iceberg
Опыт работы в JupyterLab / JupyterHub
🔷 Будет плюсом:
Опыт потоковой обработки данных
Опыт работы в AI / ML / LLM-проектах
Понимание требований к данным для обучения и эксплуатации ML-моделей
Опыт построения отказоустойчивых data-сервисов в enterprise-среде
🔷 Обязанности:
Разработка сервисов пакетной и потоковой обработки данных для вычисления векторных представлений (embeddings)
Загрузка и сопровождение данных в векторных хранилищах для использования в RAG-сценариях
Разработка и поддержка ETL-пайплайнов под управлением Airflow / Argo
Оптимизация SQL-запросов и Spark-приложений
Взаимодействие с командами Data Science, ML/LLM и инфраструктуры
Участие в развитии data-платформы для LLM-решений
💌 Для откликов и вопросов — писать в лс @ktvsk_d
Будем рады знакомству! ❤️
🛠 Навыки
Apache Airflow
Apache Spark
Argo Workflows
Hadoop
HDFS
Hive
Iceberg
JupyterHub
JupyterLab
Opensearch
Oracle Relational Database
PostgreSQL
Python (computer programming)
Qdrant
S3
SQL
🎯 Домены
AI
LLM
ML
RAG
🤖 ИИ навыки
Amazon S3
Apache Airflow
Apache Hive
Apache Iceberg
Apache Spark
Argo Workflows
database
data extraction, transformation and loading tools
Hadoop
JupyterLab
Opensearch
Oracle Relational Database
PostgreSQL
Python (computer programming)
Qdrant
SQL
* Навыки определены автоматически с помощью нейросети
🤖 ИИ домены
Artificial Intelligence
Big Data
Data Engineering
LLM
Machine Learning
Retrieval-augmented generation
* Домены определены автоматически с помощью нейросети
📢 Информация о публикации
🔗 Оригинальные посты (1)
Канал:Machinelearning_Jobs