Análise exploratória de uma amostra dos dados da biblioteca do Spotify no inverno de 2019. A análise foi realizada utilizando-se o framework Apache Spark e a biblioteca para a ciência de dados Pandas, em menor medida.
A análise exploratória consiste nas seguintes etapas:
- Leitura remota da base de dados e exibição do schema inicial do data frame;
- Remoção de colunas irrelevantes para a análise de dados;
- Adição de duas novas colunas no data frame;
- Análise dos dados das colunas recém adicionadas;
- Análise da média das popularidades mais altas dos tracks agrupados por artista;
- Análise da média da popularidade mais baixa dos tracks agrupados por artista;
- Análise da popularidade dos tracks explícitos agrupados por artista;
- Considerações finais;
Mais detalhes sobre cada etapa de análise pode ser conferido diretamente no notebook.