Proyecto para la clase de Métodos de Gran Escala ITAM
El repositorio tiene como objetivo desarrollar la infraestructura de datos para el proyecto Ecobici de la Cd. de México.
- Ecobici - Informacion sobre el sistema ecobici
- Estaciones - Informacion sobre cicloestaciones
- Ubicacion Ecobicis
- Distancia entre las cicloestaciones a vuelo de pajaro
- Capacidad maxima en bicis de cada cicloestacion
- Viajes - Informacion sobre viajes mensuales
- A nivel transaccion(viaje), estaciones origen destino, fecha y hora de salida y llegada, identificador de bicicleta, edad y genero registrado en la tarjeta de usuario.
- Estaciones - Informacion sobre cicloestaciones
- Meteorologico
Se puede
- Ozono
- PM 10
- Precipitacion
- Ingesta - Aqui se guarda todo el codigo que obtiene la informacion
- capacidad maxima - usa el API ecobici para derivar la capacidad maxima de cada cicloestacion
- ubicacion de ecobicis - usa el API ecobici para obtener caracteristicas de las cicloestaciones como direccion, coordenadas geograficas.
- distancia entre cicloestaciones - Se uso QGIS para obtener las distancias, no esta automatizado, se podria obtener con cualquier aplicacion que permita realizar queries espaciales (PostGIS on Postgres por ejemplo).
- Pipeline
- Scraping La data scrapeda debe ir en una carpeta /data/raw de un data lake (HDFS/S3), hay un flume ligado a esa carpeta y cuando detecta un cambio manda los datos al pipeline bash y al pipeline streaming () * El scraping de la disponibilidad instantanea debe correr como deamon (e.g. cada minuto) luigi coordina? * El scraping de los catalogos se puede hacer una vez al mes * El scraping de los viajes se realiza una vez al mes
- Cleaning
- Transform
- Calcular duracion del viaje y distancia
- Agregar viajes a nivel ciloestacion / hora - mantener proporcion de genero y de edad
- EDA
* Aqui se genera la informacion para el reporteador (shiny), esto al final debe de vivir en un staging database desde donde shiny presentara la informacion (Postgres?).
- Numero total de viajes realizado en los ultimos 14 dias
- Top 10 en viajes (salidas y llegadas) de las estaciones ayer y de los ultimos 14 dias (Stack Bar graph mostrando llegadas y salidas)
- Bottom 10 en viajes (salidas y llegadas) de las estaciones ayer y de los ultimos 14 dias (Stack Bar graph mostrando llegadas y salidas)
- Proporcion de genero en la red de los ultimos 14 dias
- Proporcion de edades en la red de los ultimos 14 dias
- Duracion de viaje promedio en la red, la maxima y la minima de los ultimos 14 dias
- Precipitacion
- Contaminacion - IMECAS
- Modelos / Machine Learning
- Gibbs Sampler * Terminar de definir las covariables
- Interpolador Kriging - toma las estaciones de monitoreo atmosferico que decidamos y genera un raster / grid
- Generacion de regiones - calcular la matriz de pertenencia a regiones (cluster) y la matriz de contiguidad de la matriz
- Salidas de sistema / Visualización
- Pantalla en shiny para mostrar descriptivos
- Aviso de proxima saturación (cuando la probabilidad de pasar de 3 a 4 pasa de un cierto rango se dispara la alerta)