Case Data Science - Previsão de probabilidade de default (PD)

O Data Challenge é um desafio baseado em dados elaborado pelo time de dados da Stone. Este repositório contém o notebook e os arquivos referentes ao level 3 - O case, para o desafio de ciência de dados - Previsão de inadimplencia (Previsão de default).

Descrição do problema

A stone é uma empresa que oferece crédito para empreendedores, no entando, o produto de crédito funciona de maneira diferente do mercado. Neste produto o cliente paga sua dívida com uma porcentagem das transações realizadas através das maquininhas de cartão que a própria Stone fornece, tanto de suas vendas físicas, quanto de suas vendas digitais.

E o desafio é estimar, no dia 90 do contrato, a probabilidade do cliente não quitar a dívida até o vencimento do contrato.

Descrição dos dados

Os dados fornecidos são de pagamento, dívida, data do desembolso do empréstimo, entre outros, para cada dia de vigência do contrato, ou seja, após o desembolso, houve uma atualização diária na base incluindo novas informações sobre a dívida. Sendo assim, temos informações de clientes desde o dia desembolso até a data mais recente de informação de contrato, podendo ser do final do contato, ou até algum momento no tempo em que a data atual dos dados é menor que data final contrato.

Para uma abordagem por meio de métodos estatísticos e de machine learning, foi necessário agrupar esses dados por cliente criando novas variáveis de agregação, como algumas citadas abaixo:

Porcentagem de pagamento do empréstimo.
Valor médio da dívida total.
Porcentam de dias de contrato sem pagamento.
Entre outras...

Além disso, foram criadas variávies por intervalo de tempo dentro dos 90 dias, como variáveis agregadas para os primeiros 30 dias, para o intervalo entre o dia 30 e o dia 60 de contrato, além de alguns outros intervalos de tempo para as variáveis citadas acima.

Por fim, como queremos estimar a probabilidade de default no dia 90 do contrato, para nossa análise, foi utilizada apenas dados com informação de no máximo 90 dias após o desembolso do crédito.

Resultados

Obtivemos excelentes resultados para estimar a probabilidade de que o cliente não quite sua dívida. O desvio padrão do pagamento esperado em alguns intervalos de tempo não teve importância no modelo e foi retirado para diminuir o custo computacional e para que o modelo degrade menos ao longo do tempo. Já a porcentagem de dias sem transação entre o dia 30 e o dia 90 do contrato, e a porcentagem de pagamento do empréstimo até o dia 90 do contrato foram variáveis que tiveram bastante importância para a classificação.

O modelo foi retreinado em todos os dados de teste recebidos para prever a probabilida de default nos dados de teste recebidos para avaliação, e os resultados serão atualizados assim que obtidos.

Autor

_{George Othon}

georgeothon/Data_Challenge-Previsao_de_Inadimplencia_Stone

Case Data Science - Previsão de probabilidade de default (PD)

Descrição do problema

Descrição dos dados

Resultados

Autor