Installer les dépendances du dossier app:
cd app/; npm install
Lancer hbase:
hbase rest start
Lancer l'API:
npm run app
Ensuite se diriger sur le port 3001
du navigateur.
Pour upload mvn, spark et hbase
source /espace/Auber_PLE-203/user-env.sh
Pour compiler le code source côté data:
mvn package
Pour lancer spark en local
spark-submit target/ProjetTwitter-0.0.1.jar fct file save
Avec pour fct :
- top-hashtag : topK des hashtags utilisés et le nombre d'utilisation
- top-hashtag-by-day : topK des hashtags utilisés et le nombre d'utilisation par jours
- user-hashtag : classement des user par quantité d'hashtag utilisé et la liste des hashtags correspondant
- triplet-hashtag : topK des triplets de hashtag utilisé et leur nombre d'utilisation
- nb-hashtag-by-day : nombre de hashtag utilisé pour chaque jour
- tweet-by-hashtag-nb : nombre de tweet ayant 0, 1-3, 4-7 et 8+ hashtag
- tweet-by-language : classement des languages les plus utilisés et le nombre de tweets associés
- tweet-by-day : nombre de tweet pour un jour donné
- top-followed-user : topK des users par nombre de followers
- top-retweeted-user : topK des users par nombre de RT total
- top-tweeting-user : topK des users par nombre de tweets total
- influencers : topK des users ayant utilisé le plus de triplet d'hashtag
- fake-influencers : topK des users avec le plus de followers et le nombre de RT moyen le plus bas
Avec pour file :
- small : petit fichier de 10k tweets
- one : fichier contenant les données d'un jour de tweets
- all : tous les tweets sur la période annalysée
Avec pour save :
- true : sauvegarde valeurs du RDD dans Hbase et affiche les DISPLAY premier résultats
- false : calcul le RDD et se contente d'afficher les DISPLAY premiers résultats
Pour lancer spark sur le cluster
spark-submit --master yarn --num-executors 20 target/ProjetTwitter-0.0.1.jar fct file save