Este proyecto se divide en dos partes:
- Análisis mediante Spark en modo batch
- Análisis mediante Spark Streaming de eventos en tiempo real
En cada una de las partes se explicaran todos los pasos necesarios para probar el código en vuestro ordenador, desde los pre-requisitos, las instalaciones y la ejecución de los programas .
En esta guía se explica la manera de hacerlo en un sistema linux.
Esta sección se centra en el análisis del dataset al completo y se compone del siguientes programas/scripts :
- Retrasos en mismas rutas ~
- Retrasos en el aire ~
- Cancelaciones por dia ~ cancelledPerDay
- Cancelaciones por aerolinea ~ cancelledPerAirline
- Cancelaciones por lugar ~ cancelledPerCity
- Retrasos por dia ~ delayPerDay
- Retrasos por aerolinea ~ delayPerAirline
- Retrasos por lugar ~ delayPerCity
- Porcentaje de tipo de Retraso ~ DelayTypePerMonth
- Relacion distancia retraso ~ delayPerDistance
- Meses que mas retrasos tienen ~ delayPerMonth
- Peor y mejor día para volar ~ worstAndBestDayToFlight
- Peor y mejor més para volar ~ worstAndBestMonthToFlight
El nombre de los programas es el que se encuentra a la derecha en cada uno de los casos de uso seguido de una extensión .py
Para la ejecución de esta parte del código serán necesarios los siguientes elementos:
- Spark
Puede acceder a la guía de instalación de Spark en modo local de clase desde este enlace. link
- Dataset
Será necesario descargar en dataset 2009-2018 en formato csv disponible en este enlace. link
- Código fuente
Será necesario descargar el código fuente de la parte batch del proyecto se encuentra en la carpeta spark-batch del repositorio. link
- Dependencias
Instalar el manager de paquetes de python
sudo apt-get install python-pip
Instalar el constructor de python thinker
sudo apt-get install python-tk
Instalar todos los paquetes necesarios
pip install matplotlib
pip install scikit-learn
pip install pandas
pip install plotly_express
Si el usuario quiere obtener una salida en formato csv deberá des-comentar la última linea de todos los scripts, la ejecución del programa será mas lenta pero nos permitirá obtener los resultados de ejecución de una manera mas clara.
Una vez hemos instalado Spark y hemos descagardo el dataset podremos proceder a la ejecución de los programas. Remarcamos que los scripts y el dataset han de estar en el mismo directorio.
Abrimos una shell del ordenador y accedemos al directorio donde se encuentra el código y el dataset
cd <directorio>/spark-batch
Para ejecutar un script, por ejemplo el de cancelados al día ejecutamos el siguiente comando
spark-submit nombreDelFicher.py
Ej:
spark-submit cancelledPerDay.py
Si hemos des-comentado la linea que nos genera un fichero de salida ejecutamos la siguiente orden para visualizar el contenido
cat /<nombreDelFicheroEjecutadoSinExtension>/*.csv
Ej:
cat /cancelledPerDay/*.csv