/DATCOM-BDI

Repositorio para la asignatura Big Data I del Máster en Ciencia de Datos e Ingeniería de Computadores.

Primary LanguageJupyter NotebookGNU General Public License v3.0GPL-3.0

Big Data I: Cloud Computing y almacenamiento masivo de datos

Máster Universitario en Ciencia de Datos e Ingeniería de Computadores 21-22

  1. Cloud Computing. En esta primera parte el objetivo consiste en desplegar tres tipos diferentes de contenedores mediante ficheros Dockerfile en diferentes plataformas tanto on premise como en la nube.

  2. Almacenamiento NoSQL. En esta segunda sección se plantea la resolución de la siguiente consulta en MongoDB utilizando un enfoque MapReduce y usando el operador aggregate: Obtener, para el barrio "Manhattan", el par de restaurantes de cocina "española" más próximos para cada "zipcode", mostrando la cocina, el nombre, la dirección, la distancia entre ellos y la cantidad de restaurantes evaluados para cada "zipcode", para aquellos restaurantes que hayan tenido un "score" menor o igual que 13 en alguna ocasión".

  3. Impala. En la última sección de esta asignatura el objetivo consiste en familiarizarse con la herramienta ETL Impala realizando un proceso de ingesta de datos a partir de un fichero CSV, definiendo tanto la base de datos de almacenamiento como la estructura particular al dataset.