/bigdataanalytics

Text Mining en Social Media

Primary LanguageR

bigdataanalytics

Text Mining en Social Media

Máster Big Data Analytics - Curso 2016 / 2017

Universitat Politècnica de València

Guión de ejecución

Paper

El paper se ha realizado mediante LaTeX.

Se aporta tanto el documento PDF con el resultado final (paper.pdf), como el fichero con el código fuente LaTeX (paper.tex); además, para la correcta compilación, se aportan las imágenes referenciadas en el código fuente LaTeX, que deben ubicarse en el mismo directorio que el fichero con el código fuente.

Scripts

Los scripts se han realizado mediante R.

Se aportan dos scripts:

my-pan-ap17.R

Este script incluye la tarea completa. Dentro del script se encuentra cada apartado convenientemente comentado y separado.

El script se divide en 3 apartados:

Preparación

  • Se instalan las librerías (el script comprueba primero si ya están instaladas)
  • Se cargan las librerías
  • Se configuran las rutas del dataset (ruta de training y ruta de test)
  • Se establecen los parámetros de configuración del preprocesado de los datasets tanto a nivel global como a nivel particular (para cada uno de los dos problemas)
  • Se definen las funciones auxiliares

Detección de género

  • Obtención del vocabulario
  • Obtención de las bolsas de palabras
  • Obtención del modelo de machine learning mediante Random Forest

Detección de variedad

  • Obtención del vocabulario
  • Obtención de las bolsas de palabras
  • Obtención del modelo de machine learning mediante Random Forest

exploration.R

Este script es independiente del anterior y complementario a la tarea. En él se incluyen las acciones realizadas sobre los datasets para llevar a cabo la exploración de los mismos. Parte de los resultados de la ejecución de este script está plasmada en el paper.

Si ya se dispone de todas las librerías (y, en caso, contrario, si no surge ningún inconveniente en la instalación de las mismas) la única configuración indispensable para ejecutar ambos scripts es establecer las rutas del dataset.

PechaKucha

La presentación PechaKucha se ha realizado mediante Google Docs y se ha exportado a formato PowerPoint.

Se aporta la presentación (pechakucha.pptx).