/subte_data

Procesamiento de datos sobre pasajeros del subte de Ciudad Autónoma de Buenos Aires, con PySpark

Primary LanguageJupyter Notebook

Practicando PySpark con datos del subte de BA

El notebook presente en este repositorio está destinado a procesar datos vinculados a los subtes de la Ciudad de Buenos Aires, específicamente sobre la cantidad de pasajeros por molinete de todas las estaciones de la red de Subte. Los datasets se encuentran disponible aquí

En el sitio Buenos Aires Data se encuentra una gran variedad de datos abiertos.

Entorno de trabajo

Se trabaja de manera local con una imagen de docker que incluye todo lo necesario para trabajar con PySpark

Dicha docker image está disponible aquí

El proceso consistió en extraer varios archivos csv, remover y modificar columnas y, finalmente, cargar los datos modificados a una base de datos PostgreSQL

ETL