Analizando la realidad

Nos encontramos en una época donde estamos muy cerca de cumplir todos los postulados de la computación ubicua que proponía Weiser (1991). Gracias a la Internet de la Cosas (Internet of Things - IoT) en los próximos años asistiremos a la aparición de una explosión de objetos de la vida cotidiana a los que se incorpara capacidad computo y de comunicación a través de Internet.

De momento, si podemos hablar que disponemos de computación y conectividad en cualquier lugar y cualquier momento gracias a los teléfonos inteligentes. Es más, nuestra actividad diaria está siendo continuamente monitorizada, a veces sin ser plenamente conscientes, a través de múltiples dispositivos y sensores tanto propios como ajenos. El resultado es que vamos dejando una huella digital dispersa en múltiples bases de datos, pero lo suficiente rica como para realizar análisis interesantes incluso empleando cada base de datos de manera individual. El proceso de analizar esta huella digital se conoce como minería de la realidad (reality mining).

A la disponibilidad de la huella digital, hay que añadir las capacidades de análisis que nos aportan la ciencia de datos que combina tecnologías que permiten analizar grandes volúmenes de datos, heterogéneos y en tiempo real si fuera necesario (Big Data), con algoritmo de aprendizaje automático (machine learning) que permiten encontrar patrones ocultos en los datos.

Hay que considerar, también, que toda nuestra actividad la realizamos en entorno social (MIT Human Dynamics Lab), donde nos nuestra posición y contexto, la informaciín y las ideas a las que estamos expuestos, nos condiciona nuestro comportamiento y las decisiones que tomamos (Pentland, 2014).

Práctica taxis de Nueva York

Esta práctica tiene como objetivo introducir el análisis de datos a partir de la traza digital que dejan los taxis de la ciudad de Nueva York. La organización TLC (Taxi and Limousine Commission) promovió en 2014 a través de Taxicab Passenger Enhancements Project (TPEP) que todos los taxis tenían que incorporar tecnologia que mejoraran la calidad del servicio. Entre estas tecnologías se encuentra la recolección automática de datos sobre cada viaje entre los que se incluyen el punto de recogida, el de bajada y la tarifa del viaje. Esta organización pone a disposición pública datos de los trayectos en los diferentes tipos de taxi de la ciudad de Nueva York desde el año 2009. Se analizaran los viajes realizados durante un día del año 2013 buscando responder preguntas relativas a la movilidad de los habitantes de Nueva York que impactan en el servicio de taxi.

Descargar los archivos de la práctica

Primeramente debemos realizar una clonación del repositorio que contiene todos los archivos que conforman la práctica. Desde un directorio vacío ejecutamos el siguiente comando:

git clone https://github.com/phaya/real-life-analytics.git

creándose un directorio real-life-analytics.

Este directorio contiene el archivo nyc_taxi.Rmd que es un notebook que incluye el código del cual se parte para realizar la práctica, así como las preguntas que hay que responder. El resultado que se espera es un notebook similar en el cual el alumno ha tenido que completar aquellas partes del código incompletas, así como responder a las preguntas planteadas.

También se encuentra el archivo nyc_taxi.sol.html que es un ejemplo mínimo del resultado que se genera mediante RStudio, y que puede ayudar en caso de atascarse durante la realizaciónd de la práctica.

Instalación

El código de la práctica ha sido probado con R version 3.3.2 (2016-10-31) y RStudio 1.2.240.

Es preciso instalar los siguientes paquetes si no estuvieran disponibles:

install.packages("tidyverse")
install.packages("cowplot")
install.packages("hexbin")
install.packages("lubridate")
install.packages("prettydoc")
install.packages("scales")

Datasets

Los siguientes conjuntos de datos son necesarios para completar la práctica. Estos archivos hay que descargárselo por separado.

Trayectos taxis: contiene todos los trayectos en Taxi realizados en la ciudad de Nueva York durante el día 14 de enero de 2013. El archivo pesa 73.4 MB
Localizaciones Starbucks: contiene la coordenadas de los Starbucks que había en Nueva York en el año 2013. El archivo pesa 3.9 MB

Para saber más

La siguiente lista contiene enlaces de los que se han extraido información para elaborar esta práctica, y cuya lectura amplia las conclusiones que se hayan podido extraer de la misma.

Fuentes de datos Taxis y Starbucks

Los dos primeros enlaces están relacionados con el conjunto de datos utilizado en la práctica, siendo el segundo la página oficial desde donde se puede bajar los viajes en taxi desde 2009. El resto de las páginas contienen datos abiertos, y en particular, en Socrata es donde se ha conseguido la ubicación de los Starbucks que se emplea durante la práctica.

Más huella digital

Los siguiente enlaces incluyen conjuntos de datos con distinta huella digitla recogido en distintos proyectos de investigación. La primera página apunta al sitio Reality Commons que engloba cuatro proyectos distintos liderados por el citado Sandy Pentland. La segunda página referencia al desafio promovido por Orange de analizar registros de llamadas en paises en desarrollo.

Reality Commons
- Friends and Family
- Social Evolution
- Reality Mining
- Badge Data Set
Data for Development

Referencias

Weiser, Mark (1991). “The Computer for the 21st Century”. http://www.ubiq.com/hypertext/weiser/SciAmDraft3.html
Pentland, Alex (2014) "Social Physics: How Social Networks Can Make Us Smarter". Penguin Publishing Group
MIT Human Dynamics Lab
Atlas of inequality