/Decision-Trees-Random-Forest-loan-data

This project uses lending data from LendingClub.com to determine if potential customers will successfully pay off a loan after entering a lending agreement. Our main goal will be to compare two models: one created using a single decision tree, the other using a random forest.

Primary LanguageJupyter Notebook

Decision-Trees-Random-Forest-loan-data

L'arbre 🌳 de dĂ©cision est une mĂ©thode qui est simple pour classifier n'importe quel type de donnĂ©es. Cependant, ils souffrent d'une mauvaise capacitĂ© de gĂ©nĂ©ralisation (la capacitĂ© Ă  bien prĂ©dire sur les donnĂ©es de test). Pour combler cette lacune, une forĂȘt de dĂ©cision est un ensemble d'arbres de dĂ©cision qui ont appris sur des Ă©chantillons de donnĂ©es diffĂ©rents (66% des donnĂ©es de l'ensemble d'apprentissage en gĂ©nĂ©ral pour chacun-alĂ©atoirement sĂ©lectionnĂ©s pour chaque arbre) et avec un ensemble de features diffĂ©rent pour chacun (sĂ©lectionnĂ© au hazard pour chaque arbre parmis l'ensemble des features disponibles). Une fois l'ensemble des arbres entrainĂ©s, ils procĂšdent Ă  un vote pour prĂ©dire la classe d'une nouvelle donnĂ©e et la dĂ©cision de la forĂȘt de dĂ©cision est alors la classe qui a reçu la majoritĂ© des votes. Plus le nombre d'arbres qui compose la forĂȘt de dĂ©cision est grand et plus le modĂšle est souple en gĂ©nĂ©ral.

Open In Colab

Pour ce projet, nous allons travailler sur une dataset publique disponible sur www.lendingclub.com. Lending club connecte les gens qui ont besoin d'argent (emprunteurs) avec les gens qui ont de l'argent (investisseurs). Etant donnĂ©, que vous ĂȘtes un investisseur, vous allez certainement investir dans les gens qui ont de grandes chances de vous rendre votre argent. Nous allons essayer de crĂ©er un modĂšle qui va vous aider Ă  le faire.

Lending club a eu une année 2016 trÚs lucrative avec plus de 500 millions de $ de profit.

Jetons donc un coup d'oeuil sur le données.

Nous allons utiliser les donnĂ©es de prĂȘt entre 2007 et 2018en essayant de prĂ©dire et de classifier si un emprunteur particulier a remboursĂ© son emprunt en totalitĂ© ou pas. Vous pouvez tĂ©lĂ©charger les donnĂ©es ici ou utiliser tout simplement le fichier csv. Le fichier csv est dĂ©jĂ  nettoyĂ©.

Les colonnes représentes:

  • credit.policy: 1 si le client rĂ©pond aux critĂšre de garantie de lendingclub.Com et 0 sinon
  • purpose: L'objet de l'emprunt(qui prend les valeurs "credit_card":carte de crĂ©dit, "debt_consolidation": remboursement de dettes, "educational": Ă©ducation, "major_purchase": grand achat, "small_business": petit projet, and "all_other": tout autre besoin)
  • int.rate: Le taux d'intĂ©rĂȘt de l'emprunt, comme proportion (0.11 correpond Ă  11 %). Les emprunteurs qui sont jugĂ©s Ă  risque ont un taux d'intĂ©rĂȘt plus grand.
  • installment: Les mensualitĂ©s payĂ©es par l'emprunteur si le crĂ©dit est approuvĂ©.
  • log.annual.inc: Le revenu annuel dĂ©clarĂ© par l'emprunteur.
  • dti: La proportion de la dette par rapport au revenu (dette/revenu annuel)
  • fico: un score de crĂ©dit concernant l'emprunteur
  • days.with.cr.line: Le nombre de jours pendant lesquels un emprunteur a eu une ligne de crĂ©dit
  • revol.bal: Le montant impayĂ© pendant un cycle pour une carte de crĂ©dit
  • revol.util: La fraction du montant de la ligne de crĂ©dit utilisĂ© par rapport au montant total disponible
  • inq.last.6mths: Le nombre de demande de renseignement remplis par l'emprunteur pour obtenir un prĂȘt les 6 derniers mois
  • delinq.2yrs: le nombre de fois que l'emprunteur a dĂ©passe la date limite de payement pendant les 2 derniĂšres annĂ©es
  • pub.rec: Le nombre de documents publics concernant l'emprunteur (faillite, impĂŽts, procĂšs)