/CursoEGIDE2020

Archivos del curso de Big Data y Machine Learning de la escuela de graduados EGIDE de la Facultad de ingeniería UBA.

Primary LanguageR

Curso EGIDE 2020

Archivos del curso de Big Data y Machine Learning de la escuela de graduados EGIDE de la Facultad de ingeniería UBA entre abril y junio de 2020.

Agregué también PDF's del curso de Acámica que son relevantes para este.

Presentación y objetivos: La ciencia de datos trata sobre la explotación de datos con el fin de realizar análisis descriptivos y/o predictivos a partir de ella. En el mundo de hoy, donde se generan una enorme cantidad de datos en forma continua (Big Data), el análisis de esta información mediante técnicas de Minería de Datos (Data Mining) y Aprendizaje Estadístico (también llamado Machine Learning) juega un papel crucial en los mas variados campos y disciplinas: investigación médica y bioquímica, análisis de redes sociales, finanzas, operaciones comerciales y de producción, pronósticos meteorológicos, reconocimiento de imágenes, etc. El objetivo de esta curso es presentar los fundamentos de Data Mining y de Aprendizaje Estadístico (Machine Learning), sus técnicas y algoritmos, utilizando para ello los Lenguajes de programación R y Python. ce. A su vez se presentarán conceptos de arquitecturas de Big Data como sistemas distribuidos y escalablas de almacenamiento, frameworks Hadoop y Spark.

 Preliminares de Matemática, R y Python Preliminares Prob/Estad, Álgebra y Cálculo Diferencial Introducción a Lenguajes de Programación R y Python

 Modelos de Regresión Regresión Lineal Simple y Múltiple Regresión Polinomial, No Lineal y por Splines Selección del mejor modelo (Stepwise): Base, Forward, Backwards Regulación: Ridge y Lasso (L1 y L2)

 Modelos de Clasificación KNN, Regresión Logística Cross Validation K-CV Naive Bayes y Precision-Recall Trade-off Árboles de Decisión Matriz de Costo-Beneficio Bagging Random Forests Boosting Adaboost

 Máquinas de Vectores de Soporte (SVM)  Tipos de SVM  Kernels

 Aprendizaje No Supervisado Análisis de Componentes Principales Clustering K-Means y Jerarquizado

 Redes Neuronales y Aprendizaje Profundo Tipos, Funcion de activación sigmoidea Perceptrón Multicapa Funciones de activación Tanh y ReLU Frameworks H20 y Tensorflow

 Big Data Cloud Services Arquitecturas de Big Data GFS y Map Reduce Hadoop y Spark