El objetivo de esta práctica es realizar una introducción a la minería de datos aplicada a los medios sociales. Se aprenderá a recolectar tuits a partir del flujo continuo que provee Twitter, y se calcularán algunas métricas y visualizaciones básicas utilizando el lenguaje de programación Python.
Para la realización de la práctica se proveen dos notebooks que contienen el grueso del código. Los notebooks incluyen la mayor parte de la funcionalidad para poder realizar la práctica. Además, de ejecutarlos y entender cómo han sido implementados se solicitarán realizar modificaciones para responder a preguntas similares a las planteadas en los mismos.
Primeramente debemos realizar una clonación del repositorio que contiene todos los archivos que conforman la práctica. Desde un directorio vacío ejecutamos el siguiente comando:
git clone https://github.com/phaya/python-twitter-mining.git
creándose un directorio python-twitter-mining
con los archivos correspondientes.
Para poder ejecutar los notebooks necesitamos disponer de una entorno con Jupyter, y con las siguientes bibliotecas:
- tweepy (3.6.0)
- json (2.0.9) built-in
- matplotlib (2.2.2)
- pandas (0.22.0)
- re (2.2.1) built-in
Para facilitar la configuración se recomienda emplear la plataforma Conda para instalar y ejecutar los notebooks.
Una vez dispongamos de una instalación de Conda es preciso crear un nuevo entorno donde instalar las bibliotecas necesarias y los notebooks. Se facilta un archivo environment.yml
con toda la información necesaria para realizar este paso mediante el siguiente comando:
conda env create -f environment.yml
Al finalizar la instalación deberíamos tener creado un nuevo entorno, denominado tweet-mining
que debemos activar con el siguiente comando:
source activate tweet-mining
Finalmente procedemos a lanzar jupyter
para poder ejecutar los notebooks
jupyter notebook