Data Engineer
Data Engineer Python Backend Remote
ID: 22951
6 часов назад
Активна
ОАЭ, MENA
Формат работы
Удаленная работа
📞Способы связи
📄 Оригинальный текст вакансии
Data Engineer / Python Backend
(LLM · Web Crawling · PDF · Data Pipelines)
Мы строим Legal AI платформу для рынков UAE / MENA: единый источник законодательства, судебной практики и комплаенса с AI-ассистентом.
Ищем инженера, который возьмёт на себя сбор, обновление и качество данных.
Что нужно делать
- Разрабатывать сервис сбора данных (web, PDF, документы).
- Поддерживать краулеры и парсеры (в т.ч. через Playwright).
- Извлекать текст и таблицы из PDF, приводить к структуре.
- Использовать LLM для извлечения сущностей, классификации и нормализации данных.
- Строить асинхронные data-пайплайны через брокеры сообщений.
- Реализовывать версионирование, дедупликацию и контроль изменений данных.
- Разрабатывать backend/API на Python.
Требования
- Уверенный Python (backend), понимание асинхронности.
- Опыт с FastAPI и/или Litestar.
- Практический опыт web scraping / Playwright.
- Опыт парсинга PDF.
- Хорошее владение SQL, PostgreSQL или аналоги.
- Понимание очередей и event-driven архитектуры.
Плюсом будет
- Kafka / RabbitMQ / NATS.
- LLM / RAG / embeddings (OpenAI, HuggingFace, локальные модели).
- Airflow / Prefect, Celery / RQ.
- Docker, CI/CD, Kubernetes.
- Elasticsearch / Qdrant.
- Опыт data quality и контроля актуальности данных.
Почему это интересно
- Сложные и критичные данные (законы, версии, изменения).
- Реальное применение LLM в продакшене.
- Влияние на архитектуру и стандарты с раннего этапа.
- Масштабирование: UAE → GCC → MENA.
- Полная удаленка
Откликнуться -> https://forms.gle/Wx7SSdUXoYmSdXMw8
🛠 Навыки
Airflow
Celery
Docker
Elasticsearch
FastAPI
HuggingFace
Kafka
Kubernetes
Litestar
LLM
NATS
OpenAI
Playwright
PostgreSQL
Prefect
Python (computer programming)
Qdrant
RabbitMQ
RAG
RQ
SQL
🎯 Домены
AI
Compliance
Legal Tech
🤖 ИИ навыки
architecture regulations
characteristics of faces
clean ink rollers
computational fluid dynamics
data quality assessment
Data Warehouse
disseminate messages to people
Embedded Systems
FastAPI
Jenkins (tools for software configuration management)
Litestar
manage data
manage ICT virtualisation environments
manage mine site data
PostgreSQL
Python (computer programming)
SQL
work with playwrights
* Навыки определены автоматически с помощью нейросети
🤖 ИИ домены
Artificial Intelligence
Compliance
Data pipelines
Document Processing
Judicial practice
Legal AI
Legislation
Machine Learning
SaaS
Web crawling
* Домены определены автоматически с помощью нейросети
📢 Информация о публикации
🔗 Оригинальные посты (1)
Канал:ru_pythonjobs