Projeto criado durante Bootcamp da Stack. O objetivo é apresentar um problema de negócio relacionado a Recursos Humanos - prever probabilidade dos funcionários deixarem a empresa - utilizando uma stack completa de Data Science, desde a captura dos dados, processamento, análises exploratórias, criação de modelos de previsão e deploy em ambiente de produção.
- Apache Airflow - criação dos workflows para captura de dados (os dados estão em planilhas Excel, arquivos JSON e banco de dados mysql).
- Minio - camada de datalake.
- Python - Análises exploratórias e criação dos modelos. Destaque para pacotes utilizados:
- Anaconda / Scikit-learn para análises exploratórias e modelos de machine learning.
- PyCaret
- Streamlit para deploy do modelo em ambiente web.
Além destas, Docker foi utilizado para rodar Airflow, Minio e Mysql em containers.
O aplicativo em produção pode ser visulalizado em https://share.streamlit.io/mbaltar/fullstackdatascience/streamlit/app/app.py.