Archivos del curso de Big Data y Machine Learning de la escuela de graduados EGIDE de la Facultad de ingeniería UBA entre abril y junio de 2020.
Presentación y objetivos: La ciencia de datos trata sobre la explotación de datos con el fin de realizar análisis descriptivos y/o predictivos a partir de ella. En el mundo de hoy, donde se generan una enorme cantidad de datos en forma continua (Big Data), el análisis de esta información mediante técnicas de Minería de Datos (Data Mining) y Aprendizaje Estadístico (también llamado Machine Learning) juega un papel crucial en los mas variados campos y disciplinas: investigación médica y bioquímica, análisis de redes sociales, finanzas, operaciones comerciales y de producción, pronósticos meteorológicos, reconocimiento de imágenes, etc. El objetivo de esta curso es presentar los fundamentos de Data Mining y de Aprendizaje Estadístico (Machine Learning), sus técnicas y algoritmos, utilizando para ello los Lenguajes de programación R y Python. ce. A su vez se presentarán conceptos de arquitecturas de Big Data como sistemas distribuidos y escalablas de almacenamiento, frameworks Hadoop y Spark.
Preliminares de Matemática, R y Python Preliminares Prob/Estad, Álgebra y Cálculo Diferencial Introducción a Lenguajes de Programación R y Python
Modelos de Regresión Regresión Lineal Simple y Múltiple Regresión Polinomial, No Lineal y por Splines Selección del mejor modelo (Stepwise): Base, Forward, Backwards Regulación: Ridge y Lasso (L1 y L2)
Modelos de Clasificación KNN, Regresión Logística Cross Validation K-CV Naive Bayes y Precision-Recall Trade-off Árboles de Decisión Matriz de Costo-Beneficio Bagging Random Forests Boosting Adaboost
Máquinas de Vectores de Soporte (SVM) Tipos de SVM Kernels
Aprendizaje No Supervisado Análisis de Componentes Principales Clustering K-Means y Jerarquizado
Redes Neuronales y Aprendizaje Profundo Tipos, Funcion de activación sigmoidea Perceptrón Multicapa Funciones de activación Tanh y ReLU Frameworks H20 y Tensorflow
Big Data Cloud Services Arquitecturas de Big Data GFS y Map Reduce Hadoop y Spark