Este repositório, tem como objetivo, reunir algumas das principais tecnologias na área de Dados utilizando Docker
-
Apache Airflow - Orquestrador de Dados
-
Apache Hop - ETL
-
Metabase - DataViz
-
Postgres - DataBase
-
Docker - Infra
-
Docker Hub - Repositório de Imagens
Em breve Mais Projetos
# Faz o Dowload do Script de Instalação
curl -fsSL https://get.docker.com -o get-docker.sh
# Solicita a instalação
sudo sh ./get-docker.sh
Por padrão, a utilização dos comandos docker precisam ser com o usuário administrador.
Para que você utilize o docker com um usuário convencional, siga os passos abaixo.
# Cria o grupo docker
sudo groupadd docker
# Adicionar o usuário local ao Grupo docker
sudo usermod -aG docker $USER
# Habilita o Serviço Docker
sudo systemctl enable docker.service
# Habilita o Serviço Containerd
sudo systemctl enable containerd.service
Para instalar o docker sem a necessidade do usuário administrado, clique aqui
Esta configuração foi necessário, porque o ip 172.17.x.x utilizada pelo Docker, estava entrando em conflito com a rede interna.
A Solução é alterar a configuração da Rede do Docker.
Abaixo um exemplo.
Para fazer a configuração, crie ou edite o arquivo daemon.json em /etc/docker/daemon.json
{
"bip": "10.1.1.1/24",
"default-address-pools": [
{ "base": "10.1.64.0/18", "size": 24 }
]
}
Há dois scripts que preparam o ambiente.
definicoes.sh -> Editar conforme a necessidade para automatizar a criação de diretórios e arquivos que são utilizatos pelo projeto.
repositorios_git.sh -> Editar conforme a necessidade para automatizar o clone dos repositórios com os artefatos utilizados pelo projeto.
Em breve, vou adicionar ferramentas como:
- Minio -> Storage com Protocolo S3
- Dremio -> SQL Engine para otimizar consultas SQL
- Airbyte -> Orquestrador
- Dagster -> Orquestrador
- mage -> Orquestrador
- dtb -> Integração e Tranformação de Dados
- Apache Superset Superset -> DataViz
- OpenMetadata -> Catalogo de Dados
Avaliar
- Apache Doris - Banco de dados Real-Time
- Apache Kylin - Banco de dados Real-Time
- Apache Druid - Banco de dados Real-Time
- Dezebium -> Monitora mudanças no banco de dados a nível de linha
- Trino -> SQL Engine para otimizar consultas SQL
- Apache Kafka -> Mensageria
- Apache Spark -> Engine de processamento de alto volume de dados
- Kubernets -> Orquestrador de Containers
- Git -> Versionamento de Códigos
.... Ufa ....