/SPAI

Primary LanguageJupyter Notebook

Ejercicio 1. Cálculo de la media y varianza del dataset data_ok.csv

  1. Calcular mediante paralelización con Spark la media y varianza del dataset data_ok.csv utilizando exclusivamente funciones básicas map/reduce (textFile, reduce, reduceByKey, map, flatmap, filter, count).
  2. Calcular inicialmente para una sola columna y más tarde para todas las columnas del dataset.
  3. Verificar que la solucion propuesta es correcta con las funciones rdd.mean() y rdd.stdev().

Tal y como se ha comentado en clase, se deben realizar 3 versiones para obtener la nota máxima:

  • v1: Calcula la media y varianza para la columna 4
  • v2: Utilizando las operaciones de vectorizacion de python y arrays de numpy, utilizar la misma estructura de codigo de la version 1 para calcular las medias y varianzas de todas las columnas
  • v3: Transforma cada celda del dataset en un elemento (j,v), donde "j" es la columna de la celda y "v" es el valor de la celda del rdd. Resuelve el problema con esta nueva estructura del dataset

Ejercicio 2. Clasificador Botnet (versión centralizada y parallelizada)

Sigue las instrucciones del enunciado "Practica Clasificador ML de botnet" para realizar la práctica.

Para entregar la práctica, subid:

  1. Fichero txt con el nombre de los miembros del grupo
  2. notebook (ipynb) de la version centralizada
  3. notebook (ipynb) de la version paralela (Spark)
  4. Trabajo (opcional) en pdf
  5. Indicad los miembros del grupo en la primera celda de los notebook

Estas prácticas fueron realizadas por:

  • Daniel Gutierrez San Jose
  • Erich González
  • Georgelys Marcano

Para la materia de Sistemas y Protocolos Aplicados a Internet

Septiembre 2024