Инженер Данных (Data Engineering)

Подробное описание о курсе «Инженер Данных»
В результате прохождения курса «Инженер данных» вы получите практические навыки инженера и архитектора данных.

В рамках курса вы будете на симуляторе разработки выполнять и защищать проекты, также совместно с ведущими HR-экспертами рынка вы проработаете CV и пройдете подготовку к job-interview, а лучшие студенты получат карьерные консультации по проработке индивидуального карьерного трэка от ментора курса Google Developer Expert’a Павана Кумара!

Также в рамках курса у вас будет возможность разобрать интересующие вас вопросы и обсудить перспективы применения полученных знаний и рассмотренных инструментов в контексте решения ваших рабочих задач.

Аудитория

Практический курс «Инженер данных» предназначен для всех желающих освоить профессию инженера данных.

Уровень подготовки

Не требуется.

Длительность: 6 месяцев
Программа курса «Инженер данных»

1-3 месяц

1.Базы данных
  • Основы баз данных
  • Нормализация. Нормальные формы
  • Транзакции. Команды TCL (Transaction Control Language)
  • Команды DML (Data Manipulation Language)
  • Команды DDL (Data Definition Language)
  • Команды DCL (Data Control Language)
  • Основы SQL
2.Проектирование и разработка хранилищ больших данных
  • OLAP vs OLTP
  • Архитектурные паттерн DWH. Подходы Инмона и Кимпбалла к реализации Data Warehouse
  • Data Lake vs DWH
  • Архитектуры Lambda и Kappa
  • Архитектурные паттерны Logical Data Warehouse, Data Lakehouse, Data Fabric и Streamhouse
  • Модели данных Star-schema, Snowflake, Data Vault, Anchor Modelling, Data Vault 2.0
  • MPP. Знакомство с Greenplum и ClickHouse.
  • Знакомство с экосистемой и архитектурой Hadoop
  • Знакомство c объектными S3-like хранилищами
3.Проект. Выбор паттерна хранилища больших данных и модели данных
  1. Основы Python
  • Установка и настройка PyCharm
  • Язык программирования, интерпретаторы, компиляторы, модель памяти в Python, виртуальное окружение, исполнение программы. Первая программа
  • Типы данных и переменные
  • Операторы
  • Числа, математические операции
  • Строки, функции работы со строками, Pattern Matching
  • Условный оператор if
  • Циклы for и while
  • Функции
  • Алгоритмы, поиск, сортировка, рекурсия, хэш-функции, деревья
  • Исключения
  • Коллекции
  • Списки и словари, List Comprehenshion
  • Множества
  • Кортежи
  • Итераторы и генераторы
  • Лямбда-функции
  • Каррирование
  • Работа с файлами
  • Модули и пакеты
  • Отладка и профилирование кода
  • Логирование
  • Системы версионирования кода, работа с Git
  • Объекты и классы, инкапсуляция, полиморфизм, наследование и абстракция
  • Перегрузка операторов
  • Паттерны объектно-ориентированного проектирования
  • Декораторы
  • Метаклассы
5.Пакетная обработка данных
  • Знакомство с Apache Spark и PySpark
  • Runtime-архитектура Apache Spark
  • Абстракции RDD и DAG
  • Действия (Actions) и трансформации (Transformations) в Apache Spark
  • Загрузка данных средствами Apache Spark
  • Широковещательные переменные (Broadcasted Variables) и аккумуляторы (Accumulators)
  • Разработка UDF
  • Ресурсное планирования и конфигурация приложений Apache Spark
  • Фреймворк Spark SQL. Абстракция Dataframe. Знакомство c Сфефдные
  • Партиционирование данных в Spark SQL. Методы repartition, coalesce и partitionBy.
  • Кеширование и стратегии хранения данных в PySpark.
  • Знакомство и принципы разработки UDF в PySpark.
  • Знакомство с источниками данных в PySpark (PySpark Data Sources). Разработка кастомных источников данных в PySpark.
  • Знакомство с Dataset API. Абстракция DataSet. Фреймворк Tungsten.
  • Управление приложениями Apache Spark в Kubernetes. Операторы Kubernetes для управления приложениями распределенной обработки данных.
  • Разработка CI/CD-пайплайнов для управления приложениями Apache Spark
6.Оркестрация потоков данных
  • Знакомство с Apache Airflow. Архитектура и компоненты Apache Airflow.
  • Знакомство с Airflow DAG
  • Операторы
  • Сенсоры
  • Сценарии развертывания кластеров Airflow. Конфигурация Apache Airflow.
  • Управление Airflow DAG’ами в Kubernetes
  • Разработка CI/CD-пайплайнов для управления Airflow DAG’ами. Автоматизация релизного процесса Airflow DAG’ов, управление environment-specific значениями.
  • Мониторинг Airflow DAG’ов
7.Проект. Разработка Self-service платформы Data Lake. Карьерная акселерация. Проработка CV, подготовка к собеседованиям.
4-6 месяц
8.Потоковая обработка данных
  • Знакомство с фреймворками потоковой обработки данных.
  • Знакомство с Apache Spark Streaming. Абстракция DStream.
  • Стриминговые источники данных.
  • Знакомство с Apache Spark Structured Streaming
  • Окна и функции агрегации потоковых данных
  • Объединение (JOIN) потоков данных
  • Водяные знаки (watermarking) в Apache Spark Structured Streaming
  • Контрольные точки (checkpointing) в Apache Spark Structured Streaming
  • Управление приложениями Apache Spark в Kubernetes. Реализация CI/CD. Автоматизация релизного процесса
  • Знакомство с Apache Flink
  • Источники потоковых данных
  • Стриминговая агрегация в Apache Flink. Окна агрегации потоков данных.
  • Объединение потоков данных.
  • Водяные знаки (watermarking) в Apache Spark Structured Streaming
  • Контрольные точки (checkpointing) в Apache Flink
  • Знакоство с FlinkCEP
  • Знакомство с Flink CDC
  • Реализация Kappa-архитектуры с использованием платформы Ververica
  • Управление приложениями Apache Flink в Kubernetes. Реализация CI/CD. Автоматизация релизного процесса
9.Проект.
  • Разработка Self-service платформы Streamhouse. Карьерная акселерация. Проработка CV, подготовка к собеседованиям
10. Инструменты контроля качества больших данных
  • Знакомство с Apache Griffin. Aрхитектура Apache Griffin.
  • Реализация технических проверок в Apache Griffin
  • Реализация кастомных бизнес-проверок.
  • Знакомство с Great Expectations
  • Использование Great Expectations для управления проверками качества больших данных
  • Реализация self-service системы управления качеством больших данных
  • Автоматизация релизного процесса контролей качества данных
11. Облачные сервисы обработки данных
  • Знакомство с сервисами AWS S3, EMR, Redshift, EKS. Хранение и обработка больших данных с использованием сервисов AWS.
  • Знакомство с сервисами Yandex Cloud Object Storage, Managed Service for Kubernetes, DataProc, Managed Service for ClickHouse, Managed Service for Airflow, Managed Service for Greenplum. Хранение и обработка больших данных с использованием сервисов Yandex Cloud.
  • Реализация Self-service Data Lake и Data Fabric с использованием сервисов AWS и Yandex Cloud
  • Управление инфраструктурой хранилища больших данных в AWS и Yandex Cloud с использованием Terraform. Реализация CI/CD для управления инфраструктурными изменениями. Автоматизация релизного процесса.

12. Проект.
  • Разработка гибридной Self-service платформы Data Fabric с использованием сервисов AWS и Yandex Cloud. Карьерная акселерация. Проработка CV, подготовка к собеседованиям

С какими технологиями вы будете работать
·Python
·Docker
·Kubernetes
·GitLab CI/CD
·PostgreSQL
·Greenplum
·ClickHouse
·Hadoop
·Apache Spark
·Apache Flink
·Ververica
·Apache Airflow
·Apache Griffin
·Great Expectations
·AWS
·Yandex Cloud
·Bash
·SQL
·Terraform
Что вы получите
Окончив курс «Инженер данных» в нашем учебном центре, вы получите двойной сертификат Google Developers Group Astana и Big Data KZ.
Помощь в подборе стажировок и трудоустройстве!
Возврат денег за остаток курса – если передумаете!

Контактная информация: info@bigdatakz.com, +7(771) 998 11 02
Автор программы Паван Кумар
Google Developers Expert, эксперт в области Big Data, AI, LLM, Flutter, Firebase, а также мобильной разработке, CEO @ Codepur, 140K+ YouTube, 60K+ LinkedIn, 10K+ GitHub Stars, Forbes 30 Under 30 Nominee
Big Data KZ
Контакты
Алматы, улица Сатпаева, 20А
Phone: +7 771 998 1102
Email: info@bigdatakz.com
Email: info@bigdatakz.com
Made on
Tilda