/An-lise-de-Fraude

Primary LanguageJupyter NotebookMIT LicenseMIT

Uso de diferentes métricas aplicado a Detecção de Fraudes

Sumário

  • 1 - Motivação e Obtenção dos dados
  • 2 - Análise preliminar dos dados
  • 3 - Tentiva de modelagem
  • 4 - Exploração de Métricas e Parâmetros
  • 5 - Conclusão

1 - Motivação e Obtenção dos dados

       Afim de aumentar meu portifólio, testar e aumentar meus conhecimentos práticos de Machine learning, e produzir o projeto do último módulo do Bootcamp de Data Science, decidi por tentar criar um modelo de machine leargning, em cima disso, optei por análise de fraude pois é um dos assuntos que mais me interessa no momento e além de ser bastante comentado na área de Data Science, também é bastante exigida em aplicações à vagas de emprego como Cientista de Dados.

       Para encontrar uma base de dados eu recorri ao Kaggle, onde encontrei uma base de dados para análise de fraudes de uma antiga competição que parecia adequado. segue o link: https://www.kaggle.com/mlg-ulb/creditcardfraud

2 - Análise preliminar dos dados

       Nosso primeiro passo é importar a base de dados para o google colab, logo de cara o arquivo é muito grande (143MB) para upar para o github, então recomendo que qualquer um que tente reproduzir essa análise faça download do .csv pelo link e assim como eu, faça upload do arquivo no colab quando for utilizar.

       Segue a análise no colab: https://github.com/GabrielMedeiros32/An-lise-de-Fraude/blob/main/An%C3%A1liseFraude.ipynb

3 - Tentiva de modelagem

       Ainda no mesmo colab eu começo a tentar modelar o problema por uma modelagem tosca para evidenciar que acurácia não é a única métrica cabível.

4 - Exploração de Métricas e Parâmetros

       Também no mesmo colab, com as novas métricas em mente é refeita modelagem, agora com um novo modelo e então ele é ajustado para melhorar ainda mais a sua eficácia

5 - Conclusão

       Esse projeto abordou a necessidade de diferentes métricas para diferentes tipos de modelagem usando como exemplo um caso extremo de classes desbalanceadas que é a modelagem para detecção de fraudes.

       O que se pode tirar da análise é que ao mesmo tempo eu aprendi a trabalhar com Recall e Precision e também consegui fazer um modelo e adequa-lo a detecção de fraude no que seria um ambito empreserial.