Métodos Estadísticos para la analítica de datos

Carlos Isaac Zainea Maya

En el curso se construyen los fundamentos teóricos de los principales métodos de la estadística exploratoria multidimensional y se trabajan sus aplicaciones, utilizando software especializado de uso libre y comercial. Las prácticas se orientan a la aplicación de los métodos a situaciones reales que requieren apropiación de los contextos específicos, a partir de la revisión de artículos, para realizar interpretaciones adecuadas de los datos y del fenómeno en general. Para el aprendizaje de la aplicación de los métodos, el estudiante implementará los métodos usando los lenguajes Python y R.

Contenido

  1. Aprendizaje no supervisado y sus aplicaciones Comprender los conceptos de aprendizaje no supervisado, los tipos de aprendizaje no supervisado y los retos que existen.
  2. Análisis de componentes principales Comprender el uso de componentes principales en situaciones de múltiples variables cuantitativas. Analiza la selección y uso de ACP.
  3. Análisis de componentes principales Primer avance. Problema, justificación y objetivos. Comprender el uso de componentes principales en situaciones de múltiples variables cuantitativas. Analiza la selección y uso de ACP.
  4. Análisis Factorial Utilizar el análisis factorial en situaciones de reducción de dimensionalidad. Realizar las fases exploratorias y confirmatorias de este tipo de análisis.
  5. Análisis de correspondencias múltiples Comprender las técnicas de visualización y correlación en variables categóricas. Aplicar la distancia Ji-cuadrado para analizar similitudes.
  6. Agrupamiento. Agrupamiento Jerarquico Segundo avance. Marco teórico – Previa metodología- Estudiar el agrupamiento de individuos a través de múltiples atributos. Entender el agrupamiento por medio de métodos jerárquicos.
  7. Agrupamiento de K-medias Analizar el uso de agrupamiento de K-medias. Combinar el uso de métodos jerárquicos y de k-medias.
  8. Otros agrupamientos Comprender el uso de agrupamientos basados en funciones de densidad.
  9. Aprendizaje supervisado. Clasificación y regresión Comprender el uso de regresión para la predicción de eventos. Analizar la clasificación como método de discriminación de individuos.
  10. Clasificación y regresión Tercer avance – Metodología y primeros resultados. Entender la función de decisión, Pronosticar probabilidades y manejar incertidumbre de clasificación.
  11. Estimaciones de incertidumbre de clasificadores Usar árboles de decisión para clasificar y predecir comportamientos de individuos.
  12. Árboles de decisión Comprender el funcionamiento de clasificadores bayesianos “ingenuos” y su aplicación en predicción de eventos.
  13. Clasificadores de Naive Bayes Analizar el uso de máquinas de soporte vectorial para la clasificación y regresión con alta dimensionalidad.
  14. Máquinas de soporte vectorial
  15. Exposiciones Entrega Final Diagnosticar la efectividad de la clasificación de los métodos anteriores en problemas de data mining.

Cuadernos útiles - Previo -

Instalando Kernels

Manipulación de datos en R

Manipulación de datos en Python

Introducción a Pandas

Descriptivas simples en R

Bibliografía:

Müller, A. C., & Guido, S. (2016). Introduction to machine learning with Python: a guide for data scientists. " O'Reilly Media, Inc.".

Sarkar, D., Bali, R., & Sharma, T. (2018). Practical Machine Learning with Python. A Problem-Solver's Guide to Building Real-World Intelligent Systems, New York: Springer-Verlag

Nina Zumel, John Mount, “Practical Data Science with R”, Manning Publications, 2014

Everitt, B. S. and Hothorn, T. (2011), An Introduction to Applied Multivariate Analysis with R , New York: Springer-Verlag

Kassambara, A. (2017). Practical Guide to Cluster Analysis in R: Unsupervised Machine Learning (Vol. 1). STHDA.

Jiawei Han and Micheline Kamber, “Data Mining: Concepts and Techniques”, Morgan Kaufmann Publishers, 3rd ed, 2010.