/aletheia

Um sistema de aquisição de dados de pessoas, veículos e empresas de diversas fontes

Primary LanguagePythonGNU General Public License v3.0GPL-3.0

Aletheia - The state of not being hidden; the state of being evident


Aletheia é um sistema de ETL de dados de pessoas e empresas de fontes do governo, que visa unificar, simplificar e garantir o acesso a essas informações.

Motivação

O acesso a dados cadastrais de empresas e pessoas é algo fundamental para diversos fins, como reportagens e sistemas de anti-fraude e score de crédito. Porém, o acesso à esses dados é complexo e trabalhoso visto que são diversos arquivos e muitas vezes não tem como consultar um único registro. Com isso, veio a ideia de construir um sistema que fizesse todo esse trabalho de maneira automátizada e unificada para que o usuário precise acessar apenas um único sistema.

Como funciona

Aletheia é um sistema orquestrado pelo Airflow, que sava os arquivos baixados no MinIO, os processa usando o Spark e salva os dados estruturados no ElasticSearch para pesquisa.

Fontes de dados

Acesse a planilha com as fontes de dados aqui

Instalação

Atualmente o projeto ainda se encontra em desenvolvimento, então não há nenhuma forma definida de deploy. Porém, é possível rodar o projeto localmente usando o docker-compose e, se desejar, ainda é possível usar a função de Remote Container Development do Visual Studio Code (VSCode)