Neste projeto cobrindo todas as etapas de um projeto real de Data Science pude resolver o problema de como utilizar dados para responder a questões importantes para permitir que uma empresa tenha conhecimento sobre:
- Quais são os fatores que influenciam para um colaborador deixar a empresa?
- Como reter pessoas?
- Como antecipar e saber se um determinado colaborador vai sair da empresa?
- E por fim disponibilizar recursos para que a empresa consiga realizar a predição para verificar se um colaborador vai ou não deixar a empresa com base em atributos como comportamento e carga de trabalho, nível de satisfação com a empresa e resultados de performance.
Para resolver esse problema foi construído uma solução completa para armazenamento, gestão e automatização de fluxos de dados utilizando tecnologias como Apache Airflow, Docker e Minio além de explorar uma suíte poderosa de tecnologias para trabalhar com Análise de Dados e Machine Learning que são: Pandas, Scikit-learn, Pycaret,SweetViz, Streamlit.
Depois da infraestrutura devidamente criada e configurada, levando em consideração o desafio proposto foram criados e modelados atributos relevantes para análise utilizando fontes de dados diversas como arquivos em formato xlsx, json e dados no Sistemas de Gerenciamento de Banco de Dados MySQL.
- Coleta dos dados;
- Estruturação dos dados em um banco MySQL;
- Criação do DataLake separando em estágios;
- Desenvolvimento do Modelo de Machine Learning;
- Disponibilização da Solução
Na etapa de Análise Exploratória de Dados foram descobertos os vários insights importantes abaixo:
- A empresa possui uma rotatividade de aproximadamento 24%.
- Existe um pico de empregados com baixa satisfação mas a maior concentração está em 60 a 80.
Resumo:
- Empregados com o nível de satisfação em 20 ou menos tendem a deixar a empresa.
- Empregados com o nível de satisfação em até 50 tem maior probabilidade de deixar a empresa.
- Existe uma razão para o pico de empregados insatisfeitos?
Summary:
- A maioria dos empregados que saíram tinha salário baixo ou médio.
- Quase nenhum empregado com alto salário deixou a empresa.
Questões:
- Como é o ambiente de trabalho? Isso se difere por salário?
- O que faz empregados com alto salário sairem da empresa.
Resumo: Vamos ver mais informações sobre os departamentos da empresa.
- Os departamentos de vendas, técnico e suporte são top 3 departamentos com maior índice de turnover.
- O departamento management tem o menor volume de turnover.
Questões:
- Será que examinar em profundidade os departamentos que tem maior índice de turnover e o menor pode nos revelar mais informações importantes?
- Qual o salário nestes departamentos?
- Todos os empregados que estavam inseridos sem muitos projetos deixaram a empresa.
Resumo:
- Temos uma distribuição bimodal para o conjunto que deixou a empresa.
- Colaboradores com baixa performance tendem a deixar a empresa.
- Colaboradores com alta performance tendem a deixar a empresa.
- O ponto ideal para os funcionários que permaneceram está dentro da avaliação de 60 à 80.
Resumo:
- Há um aumento na avaliação para os funcionários que realizaram mais projetos dentro do grupo de quem deixou a empresa.
- Para o grupo de pessoas que permaneceram na empresa, os empregados tiveram uma pontuação de avaliação consistente, apesar do aumento nas contagens de projetos.
- Empregados que permaneceram na empresa tiveram uma avaliação média em torno de 70%, mesmo com o número de projetos crescendo.
- Esta relação muda drasticamente entre os empregados que deixaram a empresa. A partir de 3 projetos, as médias de avaliação aumentam consideravelmente.
- Empregados que tinham dois projetos e uma péssima avaliação saíram.
- Empregados com mais de 3 projetos e avaliações altas deixaram a empresa.
Questões:
- Por que será que os funcionários que saíram tiveram em média uma avaliação superior aos funcionários que não saíram, mesmo com um aumento no número de projetos?
- Os funcionários com avaliações mais baixas não deveriam ter tendência a sair mais da empresa?
Através da análise foi possível desenvolver 3 grupos distintos para agrupar colaboradores que deixaram a empresa por comportamentos similares que são:
-
Grupo 1 (Empregados insatisfeitos e trabalhadores): A satisfação foi inferior a 20 e as avaliações foram superiores a 75. Que corresponde ao grupo de funcionários que deixaram a empresa e eram bons trabalhadores, mas se sentiam péssimos no trabalho.
-
Grupo 2 (Empregados ruins e insatisfeitos): Satisfação entre 35 à 50 e as suas avaliações abaixo de ~ 58. Corresponde aos empregados que foram mal avaliados e se sentiram mal no trabalho.
-
Grupo 3 (Empregados satisfeitos e trabalhadores): Representa os empregados ideais, que gostam do seu trabalho e são bem avaliados por seu desempenho.Este grupo pode indicar os empregados que deixaram a empresa porque encontraram outra oportunidade de trabalho.
- Portanto, foi utilizando o LGBM como modelo classificador, tendo este uma AUC de 79%.
Com o objetivo de disponibilizar a solução, foi construido um WebApp utilizando o framework streamlit. Este pode ser visto abaixo:
Através desse projeto foi possível praticar e implementar conceitos importantes da Ciência e Engenharia de Dados e propor uma solução para um problema latente e recorrente de qualquer empresa que é a retenção de talentos através da Análise de Dados de Recursos Humanos. Como um processo de melhoria contínua podemos desenvolver uma automação para executar não só o pipeline de coleta e transformação de dados como automatizar os passo da etapa de Machine Learning e Deploy