Durante sete dias recbi tarefas que ao fim foram partes de uma criação do zero à validação de um modelo otimizado. Os dados são do spotify e disponibilizados no kaggle. Para fazer um desafio mais interessante e que proporcionasse um crescimento maior resolvi criar o modelo inteiro em um dia, e nos outros dias comparar o que eu fiz com o que eu poderia ter feito, com as sugestões de cada dia.
Pandas 🐼| Numpy | scipy | Matplotlib | YellowBrick | Spotipy | Pickle
- Análise de Dados: Notebook com análise descritiva dos dados, contendo limpeza e preparação dos dados como retirada de valores duplicadas e faltantes, e normalização dos dados. Análise exploratória com melhores músicas, gêneros e artistas.
- Criação do Modelo e Comparação: Contém a criação inteira do modelo seguindo as etapas:
- Criação de critério de popularidade
- Balanceamento dos dados
- Separação em dados de treino, teste e validação
- Determinação das métricas
- Criação de Baseline
- Treinamento de 3 modelos diferentes
- Otimização de Hiperparâmetro do melhor modelo
- Validação do Modelo
Este notebook também contém a comparação do que eu poderia ter feito, que foi sugerido nas tarefas do desafio. E nesta etapa aprendi:
- Melhor criação de Baseline
- Avaliação de Coeficientes com YellowBricks
- Escolha planejada de Métricas e novas métricas
- Comparação de balanceamento
- Utilização de SerchGridCV para otimização de Hiperparâmetros