Projeto desenvolvido para a disciplina IF697 - Tópicos Avançados em Gerenciamento de Dados e Informação
do curso de Engenharia da Computação do CIn - UFPE no período letivo de 2020.2.
Esse projeto foi desenvolvido utilizando um dataset que contém dados relacionados à série de livros A Song of Ice and Fire (As Crônicas de Gelo e Fogo), mais conhecida pelo título do seu primeiro livro: A Game of Thrones (A Guerra dos Tronos).
O arquivo battles.csv
foi baixado diretamente de um dataset do kaggle e possui informações de várias batalhas que ocorrem durante a história.
A primeira parte do projeto consiste em:
- Pré-processamento dos dados
- Definição de tipos
- Tratamento de dados ausentes
- Detecção de outliers
- Discretização
- Análise descritiva dos dados
- Testes de Hipóteses
A segunda parte do projeto utiliza o dataset processado na parte I para criar um classificador a partir de algoritmos de Machine Learning. A coluna escolhida para a classificação foi a attacker_outcome
, que indica se o atacante venceu ou não a batalha.
Os algoritmos utilizados foram:
- Gaussian Naive Bayes
- KNN
- Decision Tree
- Random Forest
O optuna foi utilizado para selecionar hiper-parâmetros para cada um desses algoritmos e depois um deles foi escolhido para ser diagnosticado e melhorado.