- 1 - Motivação e Obtenção dos dados
- 2 - Análise preliminar dos dados
- 3 - Tentiva de modelagem
- 4 - Exploração de Métricas e Parâmetros
- 5 - Conclusão
Afim de aumentar meu portifólio, testar e aumentar meus conhecimentos práticos de Machine learning, e produzir o projeto do último módulo do Bootcamp de Data Science, decidi por tentar criar um modelo de machine leargning, em cima disso, optei por análise de fraude pois é um dos assuntos que mais me interessa no momento e além de ser bastante comentado na área de Data Science, também é bastante exigida em aplicações à vagas de emprego como Cientista de Dados.
Para encontrar uma base de dados eu recorri ao Kaggle, onde encontrei uma base de dados para análise de fraudes de uma antiga competição que parecia adequado. segue o link: https://www.kaggle.com/mlg-ulb/creditcardfraud
Nosso primeiro passo é importar a base de dados para o google colab, logo de cara o arquivo é muito grande (143MB) para upar para o github, então recomendo que qualquer um que tente reproduzir essa análise faça download do .csv pelo link e assim como eu, faça upload do arquivo no colab quando for utilizar.
Segue a análise no colab: https://github.com/GabrielMedeiros32/An-lise-de-Fraude/blob/main/An%C3%A1liseFraude.ipynb
Ainda no mesmo colab eu começo a tentar modelar o problema por uma modelagem tosca para evidenciar que acurácia não é a única métrica cabível.
Também no mesmo colab, com as novas métricas em mente é refeita modelagem, agora com um novo modelo e então ele é ajustado para melhorar ainda mais a sua eficácia
Esse projeto abordou a necessidade de diferentes métricas para diferentes tipos de modelagem usando como exemplo um caso extremo de classes desbalanceadas que é a modelagem para detecção de fraudes.
O que se pode tirar da análise é que ao mesmo tempo eu aprendi a trabalhar com Recall e Precision e também consegui fazer um modelo e adequa-lo a detecção de fraude no que seria um ambito empreserial.