Dados no Kubernetes [DoK]

ws-stack-dados-k8s

Conteúdo Programático

Nesse workshop vamos aprender a criar um ambiente de dados no kubernetes utilizando os mais famosos produtos open-source do mercado de dados.

Esse projeto está estruturado em 3 partes:

infra

Todos os recursos necessários para criar um cluster de kubernetes assim como os compomentes necessários para o ambiente de dados utilizando GitOps.

Para deployment do ambiente, siga os passos:

  1. Kubernetes
  2. GitOps
  3. Deployment

apps

Desenvolvimento de uma aplicação que cria arquivos em json ou parquet para colocar na pasta de landing zone de uma data lake, nesse caso utilizando MinIO (s3).

Para entendimento da aplicação, siga os passos:

  1. Data Gen DataStores

data

Criação de um pipeline de dados utilizando Apache Airflow, Trino & dbt-Core para criar um ambiente de dados completo fim a fim.

Para a construção do ambiente de dados, siga os passos:

  1. Trino
  2. dbt_Core
  3. Apache Airflow

links