sdtd-spark

Premièrement, nous avons réalisé une classe Spark en Scala StreamHandler.scala qui va se connecter au topic crimes du cluster Kafka pour avoir accès au streaming des données et puis veillera à traiter ces dernières avec pour type de calcul le Batch Processing en utilisant le principe de l'algorithme de traitement de données qui est le Random Forest Classifier.
Le Dockerfile nous permet de setup l'environnement adéquat pour le bon fonctionnement du logiciel Spark.
Le fichier de configuration ha.conf nous permet d'introduire la haute disponibilité à notre cluster Spark en utilisant le service Zookeeper.
Enfin, le startup_script.sh va nous permettre d'exécuter un master node et un worker node, puis de compiler la classe de traitement et de l'exécuter avec les packages nécessaires (drivers, connectors...).

ImaneElMouradi/sdtd-spark