/data-engineering-roadmap

roadmap de engenharia de dados da jornada 2024

Primary LanguagePython

Jornada de dados 2024

Nossa missão é fornecer o melhor ensino em engenharia de dados

Se você quer:

  1. Construir uma base sólida em Python e SQL
  2. Aprender as principais habilidades e ferramentas de engenharia de dados
  3. Criar ou melhorar seu portfólio de dados
  4. Criar ou aumentar o seu networking na área
  5. Mudar ou dar o próximo passo em sua carreira

A Jornada de Dados é o seu lugar

Visite o nosso site

Calendário

Data Workshop Horário e canal
01/09/23 Como estruturar o seu projeto de dados do zero Link
01/10/23 Do Jupyter Notebook Pro Deploy Link
01/11/23 Como construir um DW barato Link e Link
24/01 Automacao Data Quality Excel ETL gravação na plataforma de alunos
27/01 Projeto e processos do Zero gravação na plataforma de alunos
24/02 Pydantic, Data Quality e TDD em dados gravação na plataforma de alunos
09/03 Docker para analista e engenheiro de dados: ajudando o seu deploy gravação na plataforma de alunos
12/03 ETL com Python do Zero ao Deploy gravação na plataforma de alunos
23/03 Orquestrando suas ETLs com Airflow gravação na plataforma de alunos
13/04 Web scraping e noSQL gravação na plataforma de alunos
27/04 restAPI fastAPI Deploy gravação na plataforma de alunos
25/05 Amazon SQS e lambda gravação na plataforma de alunos
11/06 Data Warehouse com Python, SQL e dbt-core Part. Kaio Silva Youtube
13/06 Qualidade de dados em ETL com Pandera e Python: Um Guia para Contrato de Dados Part. Renan Heckert Youtube
19/06 Crie pipelines CI/CD com dbt e github actions Part. Bruno Souza Youtube
Em andamento Bootcamp de Web Scraping avançado 19h google meet
29/06 Dashboard e frontend 09h google meet
Julho Kafka Streaming data processing 09h google meet
Julho Infra as a Code com Terraform 09h google meet
Agosto Prometheus Datadog Sentry Monitoramento 09h google meet
Agosto Machine Learning Ops 09h google meet
Agosto Databricks e Fabric, nosso DW de milhoes 09h google meet

Calendário Bootcamp - Python do zero

Um intensivo único para você iniciar com Python e ir até tópicos avançados (API por exemplo) para você resolver problemas reais

Data Workshop Horário
19/02 Python, Git e VScode: Python do Zero 12am
20/02 TypeError, Type Check, Type Conversion, try-except e if 12am
21/02 Controle de Fluxo: DEBUG, IF, FOR, While, Listas e Dicionários 12am
22/02 Tipos complexos e Type Hint (Dicionários vs DataFrames Vs Tabelas Vs Excel) 12am
23/02 Projeto 01: Leitura e Escrita de Arquivos, lendo 1 bilhão de linhas 12am
26/02 Exercício de revisão 12am
27/02 Funções em Python e Estrutura de Dados - Parte 1 12am
28/02 Funções em Python e Estrutura de Dados - Parte 2 12am
29/02 Funções em Python e Estrutura de Dados - Parte 3 12am
01/03 Aula de revisão 12am
04/03 Introdução a POO 19pm
05/03 Introdução às Classes em Python - Parte 01 19pm
06/03 Introdução às Classes em Python - Parte 02 19pm
07/03 Introdução às Classes em Python - Parte 03
08/03 Introdução às Classes em Python - Parte 04 19pm
18/03 Aula de revisão de programação orientada a objetos + SQLModel 12am
19/03 SQLAlchemy - Conjunto de ferramentas para manipular SQL em Python 12am
20/03 O que é uma API? Request, Pydantic e fazendo nosso CRUD 12am
21/03 O que é uma API? Criando nossa primeira API 12am
22/03 Nosso Projeto de CRUD Backend + Frontend + Banco de Dados 12 am

Calendário Bootcamp - SQL início dia 22/04

Um workshop focado em SQL para engenharia de dados

  1. Introdução ao SQL Básico:

• Comandos fundamentais (SELECT, INSERT, UPDATE, DELETE). • Funções de agregação e filtragem. • Joins e subqueries.

  1. Fundamentos de Infraestrutura de Banco de Dados: • Visão geral de índices e seu impacto no desempenho. • Particionamento de dados e estratégias. • Conceitos de ACID para garantir a integridade dos dados.

  2. Configuração do Ambiente Local: • Instalação e configuração de um ambiente de desenvolvimento SQL local.

  3. Uso do Postgres com Docker: • Criação de um ambiente Docker para o PostgreSQL.

  4. Configuração do Amazon RDS para Produção: • Configuração e otimização do Amazon RDS.

  5. ETL (Extract, Transform, Load): • Conceitos e ferramentas para ETL. • Prática de transformação de dados e carga em um data warehouse.

  6. Procedures e Automatização: • Criação e uso de stored procedures para automatização de tarefas. • Princípios de design e manutenção de procedures.

  7. Testes Unitários em SQL: • Introdução aos testes de software e como aplicá-los ao SQL. • Ferramentas e frameworks de teste específicos para SQL.

  8. Integração com DBT (Data Build Tool): • Cinco aulas cobrindo desde a introdução ao DBT até casos de uso avançados. • Melhores práticas para modelagem de dados e versionamento com DBT.

  9. Orquestração de Workflows com Airflow: • Introdução ao Apache Airflow e sua importância na orquestração de tarefas de engenharia de dados. • Como integrar processos de ETL, testes e outras tarefas automatizadas com Airflow.

Jornada de dados 2024

Nossa missão é fornecer o melhor ensino em engenharia de dados

Se você quer:

  1. Construir uma base sólida em Python e SQL
  2. Aprender as principais habilidades e ferramentas de engenharia de dados
  3. Criar ou melhorar seu portfólio de dados
  4. Criar ou aumentar o seu networking na área
  5. Mudar ou dar o próximo passo em sua carreira

A Jornada de Dados é o seu lugar

Metodologia

Acredito no ensino ao vivo, são mais de 20 workshops no total

Os encontros são aos sábados ás 9 horas, são 4 horas de workshop

Detalhe das aulas

  • Criando uma colletor de excel em python
  • Qualidade com Pydantic
  • Versionamento com Git e Github
  • Documentando com Mkdcos
  • Observabilidade com Sentry
  • UI com Streamlit (se eu não achar nada mais fácil até lá)
  • Introdução aos 12 fatores
  • Versionamento com Git e Github
  • Migrando para Python 3.12 com Pyenv
  • Ambiente virtual com PIP, Poetry e Conda
  • Documentação com Mkdocs
  • Teste sua aplicação com Pyenv
  • Criando um fluxo de trabalho com pré-commit
  • Estruturando uma PR e criando um processo
  • Garantindo conformidade com CI/CD
  • Pydantic para Modelagem de Dados
  • Garantindo Qualidade de Dados
  • Test-Driven Development em Dados com Pytest
  • Estratégias de Validação de Dados
  • Pydantic e TDD: Casos Práticos
  • Fundamentos de Infraestrutura para Dados
  • Linux Essencial para Engenheiros de Dados
  • Docker: Containerização em Dados
  • Criando Ambientes de Dados com Docker
  • Melhores Práticas em Infra de Dados
  • Introdução ao Airflow para Orquestração
  • Configurando Airflow: Melhores Práticas
  • Desenvolvendo Workflows Eficientes no Airflow
  • Deploy de Workflows com Airflow
  • Monitoramento e Troubleshooting no Airflow
  • Introdução ao NoSQL: Redis e MongoDB
  • Redis para Caching e Gerenciamento de Dados
  • MongoDB: Modelagem e Consultas
  • Comparativo NoSQL: Redis vs MongoDB
  • Casos de Uso: Redis e MongoDB
  • Desenvolvendo REST APIs Eficientes
  • FastAPI: Criação e Documentação
  • Estratégias de Deploy para APIs
  • Segurança e Escalabilidade em APIs
  • APIs com FastAPI: Estudos de Caso
  • Introdução ao Processamento de Streaming
  • Apache Kafka: Fundamentos e Práticas
  • Desafios no Streaming de Dados
  • Casos Práticos Kafka
  • Mensageria com Amazon SNS e SQS
  • RabbitMQ: Configuração e Uso
  • Comparação: SNS, SQS, RabbitMQ
  • Padrões de Mensageria na Cloud
  • Casos de Uso em Sistemas Distribuídos
  • Introdução a Infraestrutura como Código
  • Terraform: Conceitos Básicos
  • Gerenciando Cloud com Terraform
  • Segurança e Compliance com Terraform
  • Terraform: Casos de Uso Práticos
  • Monitoramento com Prometheus
  • Datadog para Observabilidade de Dados
  • Sentry para Gestão de Erros
  • Integrando Prometheus, Datadog e Sentry
  • Melhores Práticas de Monitoramento
  • Introdução ao MLOps
  • Ciclo de Vida de Modelos ML
  • Automação e Orquestração em ML
  • Monitoramento e Governança de ML
  • Casos Práticos de MLOps
  • Databricks: Plataforma de Big Data
  • Fabric: Gestão de Dados em Escala
  • Arquiteturas de Data Warehouse
  • Databricks e Fabric: Integração
  • DW de Milhões: Desafios e Soluções

Pré requisitos

Para você aproveitar ao máximo do curso, é importante que você se sinta confortável com SQL e uma experiência com Python também será útil, ideal que você tenha entre 1 e 2 anos trabalhando com dados.

Caso você não tenha de 1 a 2 anos na área terá que estudar muito SQL e Python em paralelo, acredito que ao menos 1h por dia de estudos fora os Workshops.

Mas fique tranquilo, temos o nosso Bootcamp de 100 dias de Python e SQL para te colocar no shape.

Aqui é o lugar certo para aprender Python e SQL voltado para a engenharia de dados

Plataforma e autonomia

Alternativamente, você pode acessar nossa plataforma, nossa aplicação disponibiliza uma plataforma bem user-frindly para você pode acessar ao material do curso

Possui dúvidas?