O repositório em questão apresenta minha submissão para o desafio Titanic - Machine Learning from Disaster encontrado no kaggle. A predição foi realizada utilizando o algoritmo GradientBoostingClassifier.
- Para ver como tudo funciona, faça o download do dataset train.csv e test.csv na guia 'Data' no desafio encontrado no kaggle.
- pandas;
- seaborn;
- sklearn;
- numpy;
- catboost.
- Tratei alguns dados nulos, sendo idade o principal deles, o tratamento foi realizado através da extração de títulos (pronome de tratamento) de passageiros a partir da média dada para cada título;
- Criei colunas para o tratamento de títulos (favorecendo o drop da coluna de nomes) e integrantes da família (soma de SibSp e Parch);
- Fiz testes com algoritmos diferentes como: RandomForestClassifier, LogisticRegression, LinearSVC, K-NearestNeighbors e GradientBoostinClassifer;
Score: 0.7799