Implémentation de l'algorithme de clustering k-means en utilisant le framework MapReduce (Hadoop version 3.1.3).
K-means (ou K-moyennes) : C’est l’un des algorithmes de clustering les plus répandus. Il permet d’analyser un jeu de données caractérisées par un ensemble de descripteurs, afin de regrouper les données “similaires” en groupes (ou clusters).
Le clustering K-means est un type d'apprentissage non supervisé, qui est utilisé lorsque vous avez des données non étiquetées (c'est-à-dire des données sans catégories ou groupes indéfinis).
Mapper OUTPUT: <centroid,point> La clef c’est le point central du cluster auquel appartient le point de valeur, donc notre output c’est : <centroid,point>.
Combiner INPUT: Mapper Output || OUTPUT:<centroid, string((sum of point)+(point count))
Reducer INPUT: Combiner Output || OUTPUT: <new_centroid,count_of_current_unchanged_centroid_point>
https://www.mediafire.com/file/esgx0xzm2ftnl2h/Kmeans_MapReduce.pdf/file
Mr. Mohamed Biniz |