Data Engineer

Data Engineer Senior Remote

ID: 21090

6 часов назад

Активна

Centicore

Россия

350 000 ₽ - 380 000 ₽

Тип занятости

Полная занятость

Формат работы

Удаленная работа

📞Способы связи

@ktvsk_dtelegram

📄 Оригинальный текст вакансии

#вакансия #fulltime #remote #senior #dataengineer #llm #rag Компания Centicore💙 находится в поисках Senior Data Engineer (LLM / RAG). Мы занимаемся продуктовой и платформенной разработкой под ключ для крупных заказчиков. В рамках проекта команда строит промышленную data-платформу для работы с большими языковыми моделями (LLM) и Retrieval-Augmented Generation (RAG). Формат работы: Удаленка по РФ Вилка: 350–380k на руки (в зависимости от опыта и пожеланий кандидата) Уровень: Senior 🔷 Требования: Отличное знание Python: структуры данных, итераторы, декораторы, асинхронное и параллельное программирование, OOP и FP Уверенное владение SQL: сложные запросы, CTE, оконные функции Опыт работы с vector DB: OpenSearch, Qdrant Опыт построения batch и streaming-сервисов для расчёта embeddings и загрузки их в векторные хранилища Понимание принципов RAG и обогащения LLM контекстными данными Опыт разработки промышленных ETL-сервисов на Python Опыт оркестрации пайплайнов: Apache Airflow, Argo Workflows Хорошее знание Apache Spark / PySpark (производительность, отладка, Spark History Server) Опыт асинхронного взаимодействия с веб-сервисами по REST API (aiohttp, httpx) Опыт работы с PostgreSQL, Oracle Опыт работы с Big Data-хранилищами: Hadoop/HDFS, S3, Hive, Iceberg Опыт работы в JupyterLab / JupyterHub 🔷 Будет плюсом: Опыт потоковой обработки данных Опыт работы в AI / ML / LLM-проектах Понимание требований к данным для обучения и эксплуатации ML-моделей Опыт построения отказоустойчивых data-сервисов в enterprise-среде 🔷 Обязанности: Разработка сервисов пакетной и потоковой обработки данных для вычисления векторных представлений (embeddings) Загрузка и сопровождение данных в векторных хранилищах для использования в RAG-сценариях Разработка и поддержка ETL-пайплайнов под управлением Airflow / Argo Оптимизация SQL-запросов и Spark-приложений Взаимодействие с командами Data Science, ML/LLM и инфраструктуры Участие в развитии data-платформы для LLM-решений 💌 Для откликов и вопросов — писать в лс @ktvsk_d Будем рады знакомству! ❤️

🛠 Навыки

Apache Airflow

Apache Spark

Argo Workflows

Hadoop

HDFS

Hive

Iceberg

JupyterHub

JupyterLab

Opensearch

Oracle Relational Database

PostgreSQL

Python (computer programming)

Qdrant

SQL

🎯 Домены

LLM

RAG

🤖 ИИ навыки

Amazon S3

Apache Airflow

Apache Hive

Apache Iceberg

Apache Spark

Argo Workflows

database

data extraction, transformation and loading tools

Hadoop

JupyterLab

Opensearch

Oracle Relational Database

PostgreSQL

Python (computer programming)

Qdrant

SQL

* Навыки определены автоматически с помощью нейросети

🤖 ИИ домены

Artificial Intelligence

Big Data

Data Engineering

LLM

Machine Learning

Retrieval-augmented generation

* Домены определены автоматически с помощью нейросети

📢 Информация о публикации

🔗 Оригинальные посты (1)

https://t.me/Machinelearning_Jobs/120953

Канал:Machinelearning_Jobs