/untref_ds_ml

Repositorio del curso "Data Science y Machine Learning. Aplicaciones en R"

Primary LanguageHTMLOtherNOASSERTION

Materiales del curso Ciencia de Datos y Machine Learning. Aplicaciones en R

Docentes: Germán Rosati - Pablo Tiscornia - Guido Weksler

Presentación

Este curso se propone realizar una introducción a algunos conceptos fundamentales de la ciencia de datos. Se hará especial énfasis tanto en la etapa de extracción y limpieza de datos y se introducirán algunas técnicas para las etapas de modelado y comunicación. Se presentarán la implementación de análisis estadísticos básicos (descriptivos y regresiones) y algunas herramientas de visualización de datos. A su vez, el curso presentará algunos elementos metodológicos de la minería de datos/aprendizaje automático (balance sesgo-variancia, overfitting, etc.). Por último, se trabajará en la estimación de modelos basados en ensamble learning.

Programa

  • Unidad 1. Elementos de programación estadística en R: Objetos en R (vectores, matrices, data frames y listas). Introducción al tydiverse: data wrangling (select(), filter(), arrange(), mutate(). summarise(), group_by(), left_join()). Estructuras de control: for, if, map. Uso e implementación de funciones ad-hoc. Importación y exportación de datos (.csv, .txt, .tab, .sav, etc.).
  • Unidad 2. Visualización y generación de gráficos en R: Nociones de graficación (forma, color, tamaño, color). Niveles de medición y gráficos adecuados. Introducción a ggplot2: ggplot(), geom_points(), geom_smooth(), aes(), facet_wrap(), facet_grid().
  • Unidad 3. Análisis estadístico básico en R. Estadística descriptiva. Implementación y análisis de modelos de regresión lineal y logística. Funciones lm, glm y predict.
  • Unidad 4. Nociones básicas de data mining/aprendizaje automático. Tipos de problemas en aprendizaje supervisado: clasificación y regresión. Error de entrenamiento (training error), error de prueba (test error). Sobre-ajuste. Balance entre el sesgo y la variancia de un modelo. Métodos de estimación del error: partición del dataset, validación cruzada. Introducción a caret.
  • Unidad 5. Ensamble Learning. Clasificadores basados en árboles: CART. Algoritmos de Ensamble: bagging, random forest, boosting, Gradient Boostin. Uso de caret para entrenamiento de modelos. Interpretable Machine Learning: Herramientas para la interpretación de modelos de caja negra (Feature Importance, Partial Dependence Plots, Individual Conditional Expectance Plots. Aplicaciones en R.

Clases

Clase 1 - Introducción a R Base:

  • Temas de clase:
    • Descripción del programa “R”. Lógica sintáctica del lenguaje y comandos básicos
    • Presentación de la plataforma RStudio
    • Caracteres especiales en “R”
    • Operadores lógicos y aritméticos
    • Definición de Objetos: Valores, Vectores y DataFrames
    • Tipos de variable (numérica, de caracteres, lógicas)
    • Lectura y Escritura de Archivos
  • Descarga de materiales clase 1

[](Clase 1 - R Base.rar)


Clase 2 - Introducción a Tidyverse:

  • Temas de clase:
    • Paquetes y librerías
    • Presentación del paquete Tidyverse:
      • Paquete dplyr: Principales herramientas para el tratamiento del dato
      • Paquete tidyr: Re-estructuración de tablas y bases de datos
      • Operaciones segmentadas y tablas resúmenes
  • Descarga de materiales clase 2

[](Clase 2 - Tidyverse.rar)


Clase 3 - Visualización de la información

  • Temas de clase:
    • Gráficos básicos de R (función “plot”): Comandos para la visualización ágil de la información
    • Gráficos elaborados en R (función “ggplot”):
      • Gráficos de línea, barras, densidad, boxplots, geom_smooth
      • Extensiones de ggplot
  • Descarga de materiales clase 3

[](Clase 3 - Graficos.rar)


Librerías a utilizar

El taller se desarrollará en R y se hará un uso extensivo de las siguientes librerías:

  • tidyverse
  • caret
  • eph
  • openxlsx
  • ggthemes
  • ggridges
  • GGally

Pueden instalarse utilizando las instrucciones:

install.packages('tidyverse')  
install.packages('caret') 

Bibliografía básica y sitios de consulta