Чем предстоит заниматься:
- Обеспечение надёжности и отказоустойчивости сервисов
- Разработка и поддержка систем мониторинга (Prometheus, Grafana)
- Управление инцидентами и пост-мортем анализ
- Автоматизация рутинных задач на Go/Python
- Участие в проектировании архитектуры
Требования:
- Опыт работы SRE или DevOps от 4 лет
- Глубокое знание Kubernetes, Linux
- Опыт с Prometheus, Grafana, Terraform
- Понимание SLI/SLO, SLA
- Опыт программирования на Go или Python
