Big Data Engineer проектирует высоконагруженные системы для больших данных. Речь идёт об объёмах от 10 ТБ и выше. Прежде всего он занимается сбором, хранением и обработкой информации. Затем специалист разрабатывает ETL и ELT-пайплайны. Для этого он использует Spark, Flink или Kafka. Также в его зоне ответственности — оптимизация запросов. Он настраивает распределение данных в кластерах Hadoop. Речь про HDFS, Hive и HBase. Помимо этого Big Data инженер настраивает мониторинг. Он следит за состоянием кластеров и пайплайнов. Также он организует резервное копирование. Важным преимуществом будет опыт работы с облачными платформами. Например, AWS EMR, Yandex Data Platform или Azure HDInsight. В итоге Big Data Engineer обеспечивает бесперебойную работу с данными огромного объёма.
Ключевые навыки: Hadoop (HDFS, Hive, HBase, YARN), Apache Spark (Spark SQL, Spark Streaming, PySpark, Scala Spark), Kafka (Producer, Consumer, Kafka Streams), Flink (DataStream API, Flink SQL), Scala / Python / Java (PySpark, Pandas UDF, многопоточность), SQL (оконные функции, оптимизация, HiveQL), ETL / ELT (все этапы, типы загрузки: полная, инкрементальная), Airflow (DAG, операторы, сенсоры, XCom), Kubernetes (развёртывание микросервисов, Helm, операторы), Apache Hive (управление таблицами, секционирование, bucketing), Apache HBase (NoSQL, точечные чтения), Parquet / Avro / ORC (колоночные форматы), S3 / HDFS, мониторинг (Prometheus + Grafana), дельта-лейки (Delta Lake, Apache Iceberg, Hudi), CI/CD для данных (Jenkins, GitLab CI), работа с оркестрацией, профилирование пайплайнов, отладка распределённых систем.
Смотрите также другие востребованные IT-специализации
Смежные специализаии в области работы с данными:
→ Data Engineer (инженер данных) → Data Analyst (аналитик данных) → BI Analyst (аналитик бизнес-показателей) → Администратор баз данных (DBA)

