В результате прохождения курса
«Инженер данных» вы получите практические навыки инженера и архитектора данных.
В рамках курса вы будете на симуляторе разработки выполнять и защищать проекты, также совместно с ведущими HR-экспертами рынка вы проработаете CV и пройдете подготовку к job-interview, а лучшие студенты получат карьерные консультации по проработке индивидуального карьерного трэка от ментора курса Google Developer Expert’a Павана Кумара!
Также в рамках курса у вас будет возможность разобрать интересующие вас вопросы и обсудить перспективы применения полученных знаний и рассмотренных инструментов в контексте решения ваших рабочих задач.
Аудитория Практический курс «Инженер данных» предназначен для всех желающих освоить профессию инженера данных.
Уровень подготовки Не требуется.
Длительность: 6 месяцевПрограмма курса «Инженер данных» 1-3 месяц 1.Базы данных
- Основы баз данных
- Нормализация. Нормальные формы
- Транзакции. Команды TCL (Transaction Control Language)
- Команды DML (Data Manipulation Language)
- Команды DDL (Data Definition Language)
- Команды DCL (Data Control Language)
- Основы SQL
2.Проектирование и разработка хранилищ больших данных
- OLAP vs OLTP
- Архитектурные паттерн DWH. Подходы Инмона и Кимпбалла к реализации Data Warehouse
- Data Lake vs DWH
- Архитектуры Lambda и Kappa
- Архитектурные паттерны Logical Data Warehouse, Data Lakehouse, Data Fabric и Streamhouse
- Модели данных Star-schema, Snowflake, Data Vault, Anchor Modelling, Data Vault 2.0
- MPP. Знакомство с Greenplum и ClickHouse.
- Знакомство с экосистемой и архитектурой Hadoop
- Знакомство c объектными S3-like хранилищами
3.Проект. Выбор паттерна хранилища больших данных и модели данных
- Основы Python
- Установка и настройка PyCharm
- Язык программирования, интерпретаторы, компиляторы, модель памяти в Python, виртуальное окружение, исполнение программы. Первая программа
- Типы данных и переменные
- Операторы
- Числа, математические операции
- Строки, функции работы со строками, Pattern Matching
- Условный оператор if
- Циклы for и while
- Функции
- Алгоритмы, поиск, сортировка, рекурсия, хэш-функции, деревья
- Исключения
- Коллекции
- Списки и словари, List Comprehenshion
- Множества
- Кортежи
- Итераторы и генераторы
- Лямбда-функции
- Каррирование
- Работа с файлами
- Модули и пакеты
- Отладка и профилирование кода
- Логирование
- Системы версионирования кода, работа с Git
- Объекты и классы, инкапсуляция, полиморфизм, наследование и абстракция
- Перегрузка операторов
- Паттерны объектно-ориентированного проектирования
- Декораторы
- Метаклассы
5.Пакетная обработка данных
- Знакомство с Apache Spark и PySpark
- Runtime-архитектура Apache Spark
- Абстракции RDD и DAG
- Действия (Actions) и трансформации (Transformations) в Apache Spark
- Загрузка данных средствами Apache Spark
- Широковещательные переменные (Broadcasted Variables) и аккумуляторы (Accumulators)
- Разработка UDF
- Ресурсное планирования и конфигурация приложений Apache Spark
- Фреймворк Spark SQL. Абстракция Dataframe. Знакомство c Сфефдные
- Партиционирование данных в Spark SQL. Методы repartition, coalesce и partitionBy.
- Кеширование и стратегии хранения данных в PySpark.
- Знакомство и принципы разработки UDF в PySpark.
- Знакомство с источниками данных в PySpark (PySpark Data Sources). Разработка кастомных источников данных в PySpark.
- Знакомство с Dataset API. Абстракция DataSet. Фреймворк Tungsten.
- Управление приложениями Apache Spark в Kubernetes. Операторы Kubernetes для управления приложениями распределенной обработки данных.
- Разработка CI/CD-пайплайнов для управления приложениями Apache Spark
6.Оркестрация потоков данных
- Знакомство с Apache Airflow. Архитектура и компоненты Apache Airflow.
- Знакомство с Airflow DAG
- Операторы
- Сенсоры
- Сценарии развертывания кластеров Airflow. Конфигурация Apache Airflow.
- Управление Airflow DAG’ами в Kubernetes
- Разработка CI/CD-пайплайнов для управления Airflow DAG’ами. Автоматизация релизного процесса Airflow DAG’ов, управление environment-specific значениями.
- Мониторинг Airflow DAG’ов
7.Проект. Разработка Self-service платформы Data Lake. Карьерная акселерация. Проработка CV, подготовка к собеседованиям.
4-6 месяц8.Потоковая обработка данных
- Знакомство с фреймворками потоковой обработки данных.
- Знакомство с Apache Spark Streaming. Абстракция DStream.
- Стриминговые источники данных.
- Знакомство с Apache Spark Structured Streaming
- Окна и функции агрегации потоковых данных
- Объединение (JOIN) потоков данных
- Водяные знаки (watermarking) в Apache Spark Structured Streaming
- Контрольные точки (checkpointing) в Apache Spark Structured Streaming
- Управление приложениями Apache Spark в Kubernetes. Реализация CI/CD. Автоматизация релизного процесса
- Знакомство с Apache Flink
- Источники потоковых данных
- Стриминговая агрегация в Apache Flink. Окна агрегации потоков данных.
- Объединение потоков данных.
- Водяные знаки (watermarking) в Apache Spark Structured Streaming
- Контрольные точки (checkpointing) в Apache Flink
- Знакоство с FlinkCEP
- Знакомство с Flink CDC
- Реализация Kappa-архитектуры с использованием платформы Ververica
- Управление приложениями Apache Flink в Kubernetes. Реализация CI/CD. Автоматизация релизного процесса
9.Проект.
- Разработка Self-service платформы Streamhouse. Карьерная акселерация. Проработка CV, подготовка к собеседованиям
10. Инструменты контроля качества больших данных
- Знакомство с Apache Griffin. Aрхитектура Apache Griffin.
- Реализация технических проверок в Apache Griffin
- Реализация кастомных бизнес-проверок.
- Знакомство с Great Expectations
- Использование Great Expectations для управления проверками качества больших данных
- Реализация self-service системы управления качеством больших данных
- Автоматизация релизного процесса контролей качества данных
11. Облачные сервисы обработки данных
- Знакомство с сервисами AWS S3, EMR, Redshift, EKS. Хранение и обработка больших данных с использованием сервисов AWS.
- Знакомство с сервисами Yandex Cloud Object Storage, Managed Service for Kubernetes, DataProc, Managed Service for ClickHouse, Managed Service for Airflow, Managed Service for Greenplum. Хранение и обработка больших данных с использованием сервисов Yandex Cloud.
- Реализация Self-service Data Lake и Data Fabric с использованием сервисов AWS и Yandex Cloud
- Управление инфраструктурой хранилища больших данных в AWS и Yandex Cloud с использованием Terraform. Реализация CI/CD для управления инфраструктурными изменениями. Автоматизация релизного процесса.
12. Проект.
- Разработка гибридной Self-service платформы Data Fabric с использованием сервисов AWS и Yandex Cloud. Карьерная акселерация. Проработка CV, подготовка к собеседованиям
С какими технологиями вы будете работать·Python
·Docker
·Kubernetes
·GitLab CI/CD
·PostgreSQL
·Greenplum
·ClickHouse
·Hadoop
·Apache Spark
·Apache Flink
·Ververica
·Apache Airflow
·Apache Griffin
·Great Expectations
·AWS
·Yandex Cloud
·Bash
·SQL
·Terraform
Что вы получитеОкончив курс «Инженер данных» в нашем учебном центре, вы получите двойной
сертификат Google Developers Group Astana и Big Data KZ.
Помощь в подборе стажировок и трудоустройстве!
Возврат денег за остаток курса – если передумаете!
Контактная информация: info@bigdatakz.com, +7(771) 998 11 02