📄 Оригинальный текст вакансии
Senior DevOps Engineer (DWH/ML Platform)
Ищем DevOps-инженера, который не просто «держит прод», а строит масштабируемую платформу для работы с данными. Вам предстоит развивать инфраструктуру, на которой крутятся Trino, Spark и ML-модели, используя лучшие практики IaC и Kubernetes.
Технологический стек
Core Infra: AWS (EKS, VPC, IAM), Kubernetes, Terragrunt
CI/CD: GitLab CI
Compute & Query: Trino, Apache Spark
Storage: S3 (Data Lake, Apache Iceberg), ClickHouse, ScyllaDB
Orchestration: Apache Airflow (Kubernetes Executor)
Observability: Prometheus, Grafana, ELK
Deployment: Helm
Чем предстоит заниматься
Развитие Kubernetes-платформы (EKS)
Написание и поддержка сложных Helm-чартов для stateful-приложений (Trino, ClickHouse, Solr, ScyllaDB).
Управление ресурсами, автомасштабированием (HPA/VPA, Cluster Autoscaler, Karpenter).
Настройка сетевых политик, Ingress, service mesh при необходимости.
Infrastructure as Code
Полное описание инфраструктуры через Terragrunt: EKS-кластеры, VPC, IAM, S3, RDS и др.
Поддержка принципа DRY, управление стейтами в AWS S3.
Структурирование кода для нескольких окружений (dev/stage/prod).
CI/CD пайплайны
Построение процессов доставки кода и данных через GitLab CI.
Настройка GitLab Runners (в т.ч. на Kubernetes), кэширование артефактов.
Автоматизация тестирования инфраструктуры, Helm-чартов и Terraform-модулей.
Observability
Настройка сбора метрик через Prometheus (ServiceMonitors, PodMonitors, Exporters).
Визуализация в Grafana: дашборды для Data-компонентов и инфраструктуры.
Настройка алертинга для критичных сценариев: лаг репликации, очередь задач Spark/Airflow, утилизация ресурсов.
Централизованный сбор логов.
Data Ops
Поддержка кластеров Trino и Spark, обеспечение их взаимодействия с S3 (Iceberg) и базами данных (Solr, ScyllaDB).
Настройка Airflow на Kubernetes Executor, помощь DE-команде с инфраструктурными вопросами.
Участие в работе с инцидентами.
ML Support
Обеспечение стабильной работы сервисов ML (Solr, ScyllaDB, Redis) в продакшене.
Поддержка инфраструктуры для MLflow, Feast, inference-сервисов.
Что хотим видеть:
Если вы не работали с инструментами ниже, нам, к сожалению, будет сложно:
Kubernetes (Expert level): Вы не просто используете готовые манифесты, а понимаете внутренности EKS, умеете писать собственные Helm-чарты с нуля и дебажить сложные проблемы (OOMKilled, Pending pods, PVC issues, networking).
IaC: Умение структурировать код для нескольких окружений (dev/stage/prod).
GitLab CI: Глубокое понимание .gitlab-ci.yml, опыт настройки пайплайнов со сложной логикой.
AWS: Понимание сетевого взаимодействия и управления правами (IAM Policies/Roles, IRSA).
Опыт эксплуатации Big Data стека: например Trino (Presto), Spark, Airflow.
Опыт работы с колоночными NoSQL (ScyllaDB/Cassandra).
Опыт работы с поисковыми движками (Solr или Elasticsearch).
Понимание процессов MLOps и опыт с ML-инфраструктурой (MLflow, Feast, KServe).
Опыт с GitOps (ArgoCD, Flux).
Опыт работы с Apache Iceberg и Data Lake архитектурой.
@grenivetskiy
🛠 Навыки
Apache Airflow
Apache Iceberg
Apache Spark
ArgoCD
AWS
ClickHouse
Data Lake
ELK
Feast
FLUX
GitLab CI
Grafana
Helm
Kserve
Kubernetes
MLflow
Prometheus
Redis
S3
ScyllaDB
Solr
Terragrunt
Trino
🎯 Домены
Data Engineering
Machine Learning
MLOps
🤖 ИИ навыки
database management systems
Data Warehouse
digital identity management
embargo regulations
hydrography
manage ICT virtualisation environments
project configuration management
Spark
Web Services
* Навыки определены автоматически с помощью нейросети
🤖 ИИ домены
Big Data
Cloud Computing
Data Engineering
DevOps
Machine Learning
* Домены определены автоматически с помощью нейросети
📢 Информация о публикации
🔗 Оригинальные посты (1)
Канал:Machinelearning_Jobs