/Healthcare_Airflow_Modern_Stack

Project for the Healthcare Area, with a Modern Data Engineering Stack using Airbyte, Apache Airflow, Dbt and Snowflake

...

Autorização de Uso

1. Salve uma cópia e utilize o material deste repositório para estudo!

Folk

Introdução

Segundo o Centro de Controle e Prevenção de Doenças (CDC), problemas cardíacos representam uma das principais causas de óbito entre várias etnias nos Estados Unidos, incluindo afro-americanos, índios americanos, nativos do Alasca e caucasianos. Quase metade da população americana (47%) apresenta pelo menos um dos três fatores de risco significativos para o desenvolvimento de doenças cardíacas, que são hipertensão arterial, alto nível de colesterol e hábito de fumar. Adicionalmente, diabetes, obesidade (indicada por um Índice de Massa Corporal elevado), insuficiência de exercício físico, ou o consumo abusivo de álcool são também considerados fatores cruciais.

Objetivo

Através de uma Stack Moderna de Engenharia de Dados, fornecer dados que permitem a aplicação de métodos de aprendizagem de máquina para detectar “padrões” nos dados que podem prever a condição de um paciente.

Ferramentas Utilizadas

Neste projeto serão utilizados o Mongodb, Airbyte, Apache Airflow, Dbt e Snowflake.

Mongodb: Por ser baseado em documentos e sua capacidade de indexação eficiente, o que pode ser especialmente útil para aplicações que lidam com grandes volumes de dados.

Airbyte: O Airbyte possui um scheduler integrado e utiliza o Temporal para orquestrar tarefas e garantir confiabilidade em escala. O Airbyte aproveita o dbt para normalizar dados extraídos e pode acionar transformações personalizadas em SQL e dbt. Você também pode orquestrar sincronizações do Airbyte com o Airflow.

Apache Airflow: São diversas as vantagens de se usar o Airflow, dentre elas está sua UI que nos possibilita monitoramento e logs para identificar eventuais problemas, flexibilidade ao poder ser utilizado em diversos serviços, facilidade de criar e alterar fluxos simples e complexos de dados ( Dags ), entre outros.

Dbt: Simplifica consideravelmente a modelagem de dados ao empregar o SQL como sua linguagem principal, além de ter uma fácil implementação e controle de versionamento.

Snowflake: Utiliza instâncias virtuais para as necessidades de computação e um serviço para armazenamento persistente de dados. Possui uma alta escalabilidade e a execução das consultas é realizada na camada de processamento. O Snowflake processa as consultas utilizando «warehouses virtuais». Cada warehouse virtual é um cluster de computação MPP composto de múltiplos nós de computação alocados pelo Snowflake a partir de um provedor de nuvem.

Link da base de dados: Personal-Key-Indicators-Of-Heart-Disease

Repositório destinado à estudos e documentação do projeto de formação.