MyFirstHadoopProject

Les champs du fichier log à traiter sont séparés par des tabulations et ont la forme suivante:

date temps magasin produit coût paiement

Activité 4

Le but de cette activite est de déterminer le total des ventes par magasin pour cela on développe :

un Mapper afin d'extraire les couples (magasin,coût)
Un Reducer pour calculer le total des ventes pour chaque magasin

Activité 5

Le but de cette activite est de donner la liste des ventes par catégorie de produits pour cela on développe :

un Mapper afin d'extraire les couples (produit,coût)
Un Reducer pour calculer le total des ventes pour chaque produit

Activité 6

Le but de cette activite est de donner le montant de la vente le plus élevé pour chaque magasin pour cela on utilise :

Le Mapper implémenté à l'activité 4
Un Reducer pour déterminer le montant de la vente le plus élevé pour chaque magasin

Activité 7

Le but de cette activite est de déterminer le nombre total des ventes et la valeur totale des ventes de tous magasins confondus pour cela on utilise :

Le Mapper qui aura pour résultat les couples ("Total",cout)
Un Reducer pour calculer le nombre total des ventes et la somme des couts de tous les magasins le resultat est un couple ("Total",NombreVentes__TotalVente)

Teste

##Tester en local

Ajouter les jar suivants au projets : slf4j-nop httpclient jackson-core-asl jackson-mapper-asl
Dans l'onglet Arguments de la fenetre Run configuration spécifier les arguments (le fichier log et le repertoire du résultat) à utiliser lors de l'execution
Aprés l'execution du programme le resultat sera stocké dans le fichier part-r-00000 sous le répertoire du résultat

##Tester sur HDFS

Exporter le jar du projet JAVA
Créer un répertoire pour stocker le fichier des données : hadoop fs -mkdir /input
Mettre le fichier en entrée sous le répertoire crée sur HDFS : hadoop fs –put [fichier des données] /input

hadoop fs -put purchases.txt input/