/Detection-counterfeit-bills

Detection of counterfeit bills via clustering, PCA, and classification algorithms

Primary LanguageHTML

Project: Implementation of an algorithm to detect counterfeit bills.

The purpose of this project was to establish an algorithm to distinguish between genuine and counterfeit banknotes.

This project was realized in September 2018 during my MSc in Data Analytics & Artificial Intelligence at EDHEC.

It had the following objectives:
+ Balancing our dataset with the SMOTE algorithm
+ Implementation of a classification algorithm through logistic regression (evaluation: ROC/Confusion Matrix)
+ Use of clustering techniques (hierarchical classification, k-means).
+ Implementation of an analysis in Main Components (ACP) to represent our dataset visually.

The data are a dataset of fictitious data containing the geometrical characteristics of banknotes.
For each of them, we know:
+ Ticket length (in mm)
+ The height of the banknote (measured on the left side, in mm)
+ The height of the banknote (measured on the right side, in mm)
+ The margin between the top edge of the banknote and the image of the banknote (in mm)
+ The margin between the bottom edge of the banknote and the image of the banknote (in mm)
+ The diagonal of the banknote (in mm)

The code is available in the jupyter notebook and associated HTML (in french).
A presentation of the results is available in Powerpoint format.

Author: Theo Simier



#####French Version#####
Projet: Mise en place d'un algorithme pour détecter les faux billets.

Ce projet avait pour but de mettre en place un algorithme permettant de distinguer les billets véridiques des billets contrefaits.

Ce projet a été réalisé en septembre 2018 durant ma formation à l'EDHEC au sein du Master Data Analytics & Artificial Intelligence.
Il avait les objectifs suivants: 
+ Balancer notre dataset avec l'algorithme SMOTE
+ Mise en place d'un algorithme de classification grâce à une régression logistique (évaluation: ROC/Matrice de confusion)
+ Utilisation de techniques de clustering (Classification hiérarchique, k-means).
+ Mise en place d'une analyse en Composantes Principales (ACP) pour représenter visuellement notre dataset.

Les données sont un dataset de données fictives contenant les caractéristiques géométriques de billets de banque.  
Pour chacun d'eux, nous connaissons :
+ La longueur du billet (en mm)
+ La hauteur du billet (mesurée sur le côté gauche, en mm)
+ La hauteur du billet (mesurée sur le côté droit, en mm)
+ La marge entre le bord supérieur du billet et l'image de celui-ci (en mm)
+ La marge entre le bord inférieur du billet et l'image de celui-ci (en mm)
+ La diagonale du billet (en mm)

Le code est disponible dans le notebook jupyter et l'HTML associé.
Une présentation des résultats est disponible sous le format powerpoint.

Auteur: Theo Simier