Segundo o Centro de Controle e Prevenção de Doenças (CDC), problemas cardíacos representam uma das principais causas de óbito entre várias etnias nos Estados Unidos, incluindo afro-americanos, índios americanos, nativos do Alasca e caucasianos. Quase metade da população americana (47%) apresenta pelo menos um dos três fatores de risco significativos para o desenvolvimento de doenças cardíacas, que são hipertensão arterial, alto nível de colesterol e hábito de fumar. Adicionalmente, diabetes, obesidade (indicada por um Índice de Massa Corporal elevado), insuficiência de exercício físico, ou o consumo abusivo de álcool são também considerados fatores cruciais.
Através de uma Stack Moderna de Engenharia de Dados, fornecer dados que permitem a aplicação de métodos de aprendizagem de máquina para detectar “padrões” nos dados que podem prever a condição de um paciente.
Neste projeto serão utilizados o Mongodb, Airbyte, Apache Airflow, Dbt e Snowflake.
Mongodb: Por ser baseado em documentos e sua capacidade de indexação eficiente, o que pode ser especialmente útil para aplicações que lidam com grandes volumes de dados.
Airbyte: O Airbyte possui um scheduler integrado e utiliza o Temporal para orquestrar tarefas e garantir confiabilidade em escala. O Airbyte aproveita o dbt para normalizar dados extraídos e pode acionar transformações personalizadas em SQL e dbt. Você também pode orquestrar sincronizações do Airbyte com o Airflow.
Apache Airflow: São diversas as vantagens de se usar o Airflow, dentre elas está sua UI que nos possibilita monitoramento e logs para identificar eventuais problemas, flexibilidade ao poder ser utilizado em diversos serviços, facilidade de criar e alterar fluxos simples e complexos de dados ( Dags ), entre outros.
Dbt: Simplifica consideravelmente a modelagem de dados ao empregar o SQL como sua linguagem principal, além de ter uma fácil implementação e controle de versionamento.
Snowflake: Utiliza instâncias virtuais para as necessidades de computação e um serviço para armazenamento persistente de dados. Possui uma alta escalabilidade e a execução das consultas é realizada na camada de processamento. O Snowflake processa as consultas utilizando «warehouses virtuais». Cada warehouse virtual é um cluster de computação MPP composto de múltiplos nós de computação alocados pelo Snowflake a partir de um provedor de nuvem.
Link da base de dados: Personal-Key-Indicators-Of-Heart-Disease