Propósito da Stack

Este repositório, tem como objetivo, reunir algumas das principais tecnologias na área de Dados utilizando Docker

Projetos Listados

Apache Airflow - Orquestrador de Dados
Apache Hop - ETL
Metabase - DataViz
Postgres - DataBase
Docker - Infra
Docker Hub - Repositório de Imagens

Em breve Mais Projetos

Instruções

Instalar o Docker

# Faz o Dowload do Script de Instalação
curl -fsSL https://get.docker.com -o get-docker.sh

# Solicita a instalação
sudo sh ./get-docker.sh

Pós-Instalação Docker

Por padrão, a utilização dos comandos docker precisam ser com o usuário administrador.

Para que você utilize o docker com um usuário convencional, siga os passos abaixo.

# Cria o grupo docker
sudo groupadd docker

# Adicionar o usuário local ao Grupo docker
sudo usermod -aG docker $USER

# Habilita o Serviço Docker
sudo systemctl enable docker.service

# Habilita o Serviço Containerd 
sudo systemctl enable containerd.service

Docker RootLess

Para instalar o docker sem a necessidade do usuário administrado, clique aqui

Observações

Esta configuração foi necessário, porque o ip 172.17.x.x utilizada pelo Docker, estava entrando em conflito com a rede interna.

A Solução é alterar a configuração da Rede do Docker.

Abaixo um exemplo.

Para fazer a configuração, crie ou edite o arquivo daemon.json em /etc/docker/daemon.json

{
  "bip": "10.1.1.1/24",
  "default-address-pools": [
    { "base": "10.1.64.0/18", "size": 24 }
  ]
}

Preparar o ambiente

Há dois scripts que preparam o ambiente.

definicoes.sh -> Editar conforme a necessidade para automatizar a criação de diretórios e arquivos que são utilizatos pelo projeto.

repositorios_git.sh -> Editar conforme a necessidade para automatizar o clone dos repositórios com os artefatos utilizados pelo projeto.

Extras

Em breve, vou adicionar ferramentas como:

Minio -> Storage com Protocolo S3
Dremio -> SQL Engine para otimizar consultas SQL
Airbyte -> Orquestrador
Dagster -> Orquestrador
mage -> Orquestrador
dtb -> Integração e Tranformação de Dados
Apache Superset Superset -> DataViz
OpenMetadata -> Catalogo de Dados

Avaliar

Apache Doris - Banco de dados Real-Time
Apache Kylin - Banco de dados Real-Time
Apache Druid - Banco de dados Real-Time
Dezebium -> Monitora mudanças no banco de dados a nível de linha
Trino -> SQL Engine para otimizar consultas SQL
Apache Kafka -> Mensageria
Apache Spark -> Engine de processamento de alto volume de dados
Kubernets -> Orquestrador de Containers
Git -> Versionamento de Códigos

.... Ufa ....

pauloricardoferreira/stack_dados