+7 771 998 1102

Инженер Данных (Data Engineering)

Подробное описание о курсе «Инженер Данных»

В результате прохождения курса «Инженер данных» вы получите практические навыки инженера и архитектора данных.

В рамках курса вы будете на симуляторе разработки выполнять и защищать проекты, также совместно с ведущими HR-экспертами рынка вы проработаете CV и пройдете подготовку к job-interview, а лучшие студенты получат карьерные консультации по проработке индивидуального карьерного трэка от ментора курса Google Developer Expert’a Павана Кумара!

Также в рамках курса у вас будет возможность разобрать интересующие вас вопросы и обсудить перспективы применения полученных знаний и рассмотренных инструментов в контексте решения ваших рабочих задач.

Аудитория

Практический курс «Инженер данных» предназначен для всех желающих освоить профессию инженера данных.

Уровень подготовки

Не требуется.

Длительность: 6 месяцев
Программа курса «Инженер данных»

1-3 месяц

1.Базы данных

Основы баз данных
Нормализация. Нормальные формы
Транзакции. Команды TCL (Transaction Control Language)
Команды DML (Data Manipulation Language)
Команды DDL (Data Definition Language)
Команды DCL (Data Control Language)
Основы SQL

2.Проектирование и разработка хранилищ больших данных

OLAP vs OLTP
Архитектурные паттерн DWH. Подходы Инмона и Кимпбалла к реализации Data Warehouse
Data Lake vs DWH
Архитектуры Lambda и Kappa
Архитектурные паттерны Logical Data Warehouse, Data Lakehouse, Data Fabric и Streamhouse
Модели данных Star-schema, Snowflake, Data Vault, Anchor Modelling, Data Vault 2.0
MPP. Знакомство с Greenplum и ClickHouse.
Знакомство с экосистемой и архитектурой Hadoop
Знакомство c объектными S3-like хранилищами

3.Проект. Выбор паттерна хранилища больших данных и модели данных

Основы Python

Установка и настройка PyCharm
Язык программирования, интерпретаторы, компиляторы, модель памяти в Python, виртуальное окружение, исполнение программы. Первая программа
Типы данных и переменные
Операторы
Числа, математические операции
Строки, функции работы со строками, Pattern Matching
Условный оператор if
Циклы for и while
Функции
Алгоритмы, поиск, сортировка, рекурсия, хэш-функции, деревья
Исключения
Коллекции
Списки и словари, List Comprehenshion
Множества
Кортежи
Итераторы и генераторы
Лямбда-функции
Каррирование
Работа с файлами
Модули и пакеты
Отладка и профилирование кода
Логирование
Системы версионирования кода, работа с Git
Объекты и классы, инкапсуляция, полиморфизм, наследование и абстракция
Перегрузка операторов
Паттерны объектно-ориентированного проектирования
Декораторы
Метаклассы

5.Пакетная обработка данных

Знакомство с Apache Spark и PySpark
Runtime-архитектура Apache Spark
Абстракции RDD и DAG
Действия (Actions) и трансформации (Transformations) в Apache Spark
Загрузка данных средствами Apache Spark
Широковещательные переменные (Broadcasted Variables) и аккумуляторы (Accumulators)
Разработка UDF
Ресурсное планирования и конфигурация приложений Apache Spark
Фреймворк Spark SQL. Абстракция Dataframe. Знакомство c Сфефдные
Партиционирование данных в Spark SQL. Методы repartition, coalesce и partitionBy.
Кеширование и стратегии хранения данных в PySpark.
Знакомство и принципы разработки UDF в PySpark.
Знакомство с источниками данных в PySpark (PySpark Data Sources). Разработка кастомных источников данных в PySpark.
Знакомство с Dataset API. Абстракция DataSet. Фреймворк Tungsten.
Управление приложениями Apache Spark в Kubernetes. Операторы Kubernetes для управления приложениями распределенной обработки данных.
Разработка CI/CD-пайплайнов для управления приложениями Apache Spark

6.Оркестрация потоков данных

Знакомство с Apache Airflow. Архитектура и компоненты Apache Airflow.
Знакомство с Airflow DAG
Операторы
Сенсоры
Сценарии развертывания кластеров Airflow. Конфигурация Apache Airflow.
Управление Airflow DAG’ами в Kubernetes
Разработка CI/CD-пайплайнов для управления Airflow DAG’ами. Автоматизация релизного процесса Airflow DAG’ов, управление environment-specific значениями.
Мониторинг Airflow DAG’ов

7.Проект. Разработка Self-service платформы Data Lake. Карьерная акселерация. Проработка CV, подготовка к собеседованиям.
4-6 месяц
8.Потоковая обработка данных

Знакомство с фреймворками потоковой обработки данных.
Знакомство с Apache Spark Streaming. Абстракция DStream.
Стриминговые источники данных.
Знакомство с Apache Spark Structured Streaming
Окна и функции агрегации потоковых данных
Объединение (JOIN) потоков данных
Водяные знаки (watermarking) в Apache Spark Structured Streaming
Контрольные точки (checkpointing) в Apache Spark Structured Streaming
Управление приложениями Apache Spark в Kubernetes. Реализация CI/CD. Автоматизация релизного процесса
Знакомство с Apache Flink
Источники потоковых данных
Стриминговая агрегация в Apache Flink. Окна агрегации потоков данных.
Объединение потоков данных.
Водяные знаки (watermarking) в Apache Spark Structured Streaming
Контрольные точки (checkpointing) в Apache Flink
Знакоство с FlinkCEP
Знакомство с Flink CDC
Реализация Kappa-архитектуры с использованием платформы Ververica
Управление приложениями Apache Flink в Kubernetes. Реализация CI/CD. Автоматизация релизного процесса

9.Проект.

Разработка Self-service платформы Streamhouse. Карьерная акселерация. Проработка CV, подготовка к собеседованиям

10. Инструменты контроля качества больших данных

Знакомство с Apache Griffin. Aрхитектура Apache Griffin.
Реализация технических проверок в Apache Griffin
Реализация кастомных бизнес-проверок.
Знакомство с Great Expectations
Использование Great Expectations для управления проверками качества больших данных
Реализация self-service системы управления качеством больших данных
Автоматизация релизного процесса контролей качества данных

11. Облачные сервисы обработки данных

Знакомство с сервисами AWS S3, EMR, Redshift, EKS. Хранение и обработка больших данных с использованием сервисов AWS.
Знакомство с сервисами Yandex Cloud Object Storage, Managed Service for Kubernetes, DataProc, Managed Service for ClickHouse, Managed Service for Airflow, Managed Service for Greenplum. Хранение и обработка больших данных с использованием сервисов Yandex Cloud.
Реализация Self-service Data Lake и Data Fabric с использованием сервисов AWS и Yandex Cloud
Управление инфраструктурой хранилища больших данных в AWS и Yandex Cloud с использованием Terraform. Реализация CI/CD для управления инфраструктурными изменениями. Автоматизация релизного процесса.

12. Проект.

Разработка гибридной Self-service платформы Data Fabric с использованием сервисов AWS и Yandex Cloud. Карьерная акселерация. Проработка CV, подготовка к собеседованиям

С какими технологиями вы будете работать
·Python
·Docker
·Kubernetes
·GitLab CI/CD
·PostgreSQL
·Greenplum
·ClickHouse
·Hadoop
·Apache Spark
·Apache Flink
·Ververica
·Apache Airflow
·Apache Griffin
·Great Expectations
·AWS
·Yandex Cloud
·Bash
·SQL
·Terraform
Что вы получите
Окончив курс «Инженер данных» в нашем учебном центре, вы получите двойной сертификат Google Developers Group Astana и Big Data KZ.
Помощь в подборе стажировок и трудоустройстве!
Возврат денег за остаток курса – если передумаете!

Контактная информация: info@bigdatakz.com, +7(771) 998 11 02

Автор программы Паван Кумар

Google Developers Expert, эксперт в области Big Data, AI, LLM, Flutter, Firebase, а также мобильной разработке, CEO @ Codepur, 140K+ YouTube, 60K+ LinkedIn, 10K+ GitHub Stars, Forbes 30 Under 30 Nominee

ПОДРОБНЕЕ О КУРСЕ

Сергей Самсонов

Самарский государственный экономический университет: Институт систем управления, Прикладная информатика (в экономике), информатик-экономист, 2012
Институт систем управления, Организация и технология защиты информации, специалист по защите информации, 2014
Пензенский государственный университет: Факультет вычислительной техники, Прикладная информатика (в экономике), магистр прикладной информатики, 2016
Университет Любляны: Факультет компьютерных наук и информатики, Искусственный интеллект, магистр компьютерных наук, 2016

Опыт работы в сфере больших данных более 10 лет. Лидировал успешные проекты по внедрению и поддержке Data Lake в АО «Альфа-Банк», ПАО «Росбанк», ПАО «ВТБ», международных стартапах, а также, государственных информационных системах РФ, включая ГАСУ «Национальные проекты». Контрибьютор open-source проектов по Big Data, включая Kubernetes Operator for Apache Spark https://github.com/kubeflow/spark-operator.

Организатор Google Developers Group Astana. Основатель казахоязычного коммьюнити по большим данным BIG DATA KZ. Scrum-мастер с более чем 5-летним опытом, обладатель сертификатов Agile Fundamentals (ICP) и Agile Team Facilitation (ICP-ATF).

УЗНАТЬ ПОДРОБНЕЕ

Big Data KZ

Контакты

Алматы, улица Сатпаева, 20А
Phone: +7 771 998 1102
Email: info@bigdatakz.com

Email: info@bigdatakz.com