Data_engineer_course

https://www.youtube.com/playlist?list=PLfnFOImnyWRVqMta6B8aD8E_F6FVj55D4 - Курс | Data Engineer

План

1) РЕЛЯЦИОННЫЕ И MPP СУБД

Реляционными и MPP базы данных. Их архитектура.

https://www.youtube.com/watch?v=36Qql0DE4tk - ClickHouse

https://www.youtube.com/watch?v=glmugFtHjWE - Greenplum

https://www.youtube.com/watch?v=zNZmHSB71_U - Clickhouse vs Greenplum

https://www.youtube.com/watch?v=wQVYK5uG7gA - Тестовое по ClickHouse

https://habr.com/ru/articles/322724/ - ClickHouse: очень быстро и очень удобно

https://ruvds.com/ru/helpcenter/kak-ustanovit-i-ispolzovat-clickhouse-na-ubuntu-20-04/ - установка и использование

https://leftjoin.ru/tags/clickhouse/ - Три способа рассчитать накопленную сумму в SQL

https://www.bigdataschool.ru/blog/greenplum-architecture.html - как устроена MPP-СУБД Greenplum

2) АВТОМАТИЗАЦИЯ ETL-ПРОЦЕССОВ

ETL — ключевой процесс в управлении хранилищами данных. Принципы и основные этапы его построения. Популярный инструмент Airflow, его основные компоненты и с его помощью автоматизировать ETL-пайплайны.

https://www.youtube.com/playlist?list=PL1nFVl41dGiVyk-yCErOUuEdIe9tCb-u5 - apache airflow

https://habr.com/ru/articles/512386/ - Apache Airflow: делаем ETL проще

https://www.youtube.com/watch?v=K9AnJ9_ZAXE - Apache Airflow полный курс за 2 часа

3) BIG DATA

Hadoop, основные паттерны реализации их распределённой обработки. Вопросы отказоустойчивости и восстановления после сбоев. Потоковая обработка данных, методы и средства мониторинга и профилирования заданий Spark.

https://www.youtube.com/watch?v=JK2MdJAWEGc&list=PLlgLmuG_KgbasW0lpInSAIxYd2vqAEPit - Hadoop Tutorial

https://www.youtube.com/watch?v=F4j9InmpbcE - Очень кратко про Hadoop и Spark

https://www.youtube.com/playlist?list=PL1nFVl41dGiWAbskN53U-dJ9edAa9fo58 - Курсы Apache Spark

4) ПРОЕКТИРОВАНИЕ DWH

Data Warehouse — централизованное хранилище данных из разных источников. Его верхнеуровневая логическая архитектура, её основные компоненты, разные подходы к проектированию детального слоя DWH.

https://www.youtube.com/watch?v=CHYPF7jxlik - Data Warehouse Tutorial

https://habr.com/ru/companies/southbridge/articles/668490/ - Построение DWH на основе Greenplum

5) ОБЛАЧНОЕ ХРАНИЛИЩЕ

Oблачные решения и инструменты для построения DWH и Data Lake. Kubernetes и работа с данными. Spark в Kubernetes.

https://www.youtube.com/watch?v=fYGc4elKW-g - Разворачиваем приложение на Apache Spark в Kubernetes

https://www.youtube.com/watch?v=JC_OyWpqNSA - Кто такие devOps, что такое Docker на самом деле, Kubernetes

https://www.youtube.com/watch?v=kTp5xUtcalw - Docker Containers and Kubernetes Fundamentals

6) ВИЗУАЛИЗАЦИЯ ДАННЫХ

Tableau — гибким и мощным BI-инструментом. как он взаимодействует с базами данных, и построить с его помощью интерактивный дашборд для мониторинга DWH платформы

https://www.youtube.com/watch?v=S2Vf-9czTqY - Основы Tableau

https://www.youtube.com/watch?v=BTArwS4ljC4 - Create Netflix dashboard with Tableau in 30 minutes

https://www.youtube.com/playlist?list=PLoRh-eI2gGZQkTwUBqmRLdxsGBeFiqhMr - Tableau data warehouse into. Ques

7) BIG ML

теория распределённого машинного обучения. модуль Spark ML

https://www.youtube.com/watch?v=d68VGJ7yAko - Spark MLlib Tutorial

8) УПРАВЛЕНИЕ МОДЕЛЯМИ

инструменты для построения ML-пайплайнов, версионирования датасетов, организации учёта и трекинга моделей

9) УПРАВЛЕНИЕ ДАННЫМИ

подходы к управлению данными