alurachallengedatascience1
Este desafio simula a análise de dados dos clientes do AluraVoz, onde será necessário aplicar técnicas de DataScience para auxiliar o time de vendas a buscar estratégias para redução do Churn de clientes.
Ferramenta de gestão do projeto: trello , https://trello.com/b/pcPj8t1B/challenge-alura-week-1
Principais atividades realizadas:
- Leitura dos dados: formato json fonte http;
- Normalização de colunas: cada coluna possui um dicionário com dados embutidos, assim, cada uma das colunas foi normalizada usando 'json_normalize'.
- Concantenação: as colunas normalizadas foram concatenadas para formas o DataFrame 'dados_api'
- Análise de inconsistência nos dados: foi observado que as colunas 'Churn' e 'Charges Total' possuiam valores em branco através das funções df.info() e df.describe(). No entanto, ao utilizar a função isnull() não apareciam dados nulos para essas colunas. Solução: utilizando o .unique() foi possível identificar qual a string que estava constando nos campos sem valor e assim através da função replace() substituí-los por "np.nan". Foi aplicado o dropna() para ambos Churn e Charges Total e as linhas com campos nulos nessas colunas foram removidas do dataframe; que agora é a cópia: dados_new.
- Tradução das colunas: foram traduzidos os nomes das colunas e os valores de alguns campos que estavam em inglês. Não foi aplicado uma função, portanto, foram feitas uma tradução por vez.
- Criação da coluna tempo_dias: esta coluna foi calculada através da divisão do valor da coluna 'tenure' por 30, uma vez que a coluna 'tenure' está em meses. Logo podemos analisar o tempo de contrato em dias.