Materiales del curso Ciencia de Datos y Machine Learning. Aplicaciones en R

Docentes: Germán Rosati - Pablo Tiscornia - Guido Weksler

Presentación

Este curso se propone realizar una introducción a algunos conceptos fundamentales de la ciencia de datos. Se hará especial énfasis tanto en la etapa de extracción y limpieza de datos y se introducirán algunas técnicas para las etapas de modelado y comunicación. Se presentarán la implementación de análisis estadísticos básicos (descriptivos y regresiones) y algunas herramientas de visualización de datos. A su vez, el curso presentará algunos elementos metodológicos de la minería de datos/aprendizaje automático (balance sesgo-variancia, overfitting, etc.). Por último, se trabajará en la estimación de modelos basados en ensamble learning.

Programa

Unidad 1. Elementos de programación estadística en R: Objetos en R (vectores, matrices, data frames y listas). Introducción al tydiverse: data wrangling (select(), filter(), arrange(), mutate(). summarise(), group_by(), left_join()). Estructuras de control: for, if, map. Uso e implementación de funciones ad-hoc. Importación y exportación de datos (.csv, .txt, .tab, .sav, etc.).
Unidad 2. Visualización y generación de gráficos en R: Nociones de graficación (forma, color, tamaño, color). Niveles de medición y gráficos adecuados. Introducción a ggplot2: ggplot(), geom_points(), geom_smooth(), aes(), facet_wrap(), facet_grid().
Unidad 3. Análisis estadístico básico en R. Estadística descriptiva. Implementación y análisis de modelos de regresión lineal y logística. Funciones lm, glm y predict.
Unidad 4. Nociones básicas de data mining/aprendizaje automático. Tipos de problemas en aprendizaje supervisado: clasificación y regresión. Error de entrenamiento (training error), error de prueba (test error). Sobre-ajuste. Balance entre el sesgo y la variancia de un modelo. Métodos de estimación del error: partición del dataset, validación cruzada. Introducción a caret.
Unidad 5. Ensamble Learning. Clasificadores basados en árboles: CART. Algoritmos de Ensamble: bagging, random forest, boosting, Gradient Boostin. Uso de caret para entrenamiento de modelos. Interpretable Machine Learning: Herramientas para la interpretación de modelos de caja negra (Feature Importance, Partial Dependence Plots, Individual Conditional Expectance Plots. Aplicaciones en R.

Clases

Clase 1 - Introducción a R Base:

Temas de clase:
- Descripción del programa “R”. Lógica sintáctica del lenguaje y comandos básicos
- Presentación de la plataforma RStudio
- Caracteres especiales en “R”
- Operadores lógicos y aritméticos
- Definición de Objetos: Valores, Vectores y DataFrames
- Tipos de variable (numérica, de caracteres, lógicas)
- Lectura y Escritura de Archivos

Descarga de materiales clase 1

[](Clase 1 - R Base.rar)

Clase 2 - Introducción a Tidyverse:

Temas de clase:
- Paquetes y librerías
- Presentación del paquete Tidyverse:
  - Paquete dplyr: Principales herramientas para el tratamiento del dato
  - Paquete tidyr: Re-estructuración de tablas y bases de datos
  - Operaciones segmentadas y tablas resúmenes

Descarga de materiales clase 2

[](Clase 2 - Tidyverse.rar)

Clase 3 - Visualización de la información

Temas de clase:
- Gráficos básicos de R (función “plot”): Comandos para la visualización ágil de la información
- Gráficos elaborados en R (función “ggplot”):
  - Gráficos de línea, barras, densidad, boxplots, geom_smooth
  - Extensiones de ggplot

Descarga de materiales clase 3

[](Clase 3 - Graficos.rar)

Librerías a utilizar

El taller se desarrollará en R y se hará un uso extensivo de las siguientes librerías:

tidyverse
caret
eph
openxlsx
ggthemes
ggridges
GGally

Pueden instalarse utilizando las instrucciones:

install.packages('tidyverse')  
install.packages('caret')