Notas personales acerca de statistical Learning, machine learning y varios temas relacionados con la Ciencia de los datos.
A continuación encontrarán algunas guías sobre el aprendizaje estadístico y técnicas de aprendizaje automatico o machine learning que he abordado sobre varios cursos tanto presenciales como en línea.
Empezaremos desde los temas mas sencillos hasta ir abordando los mas dificiles, en lo posible tanto teórico como práctico.
Recuerde que estas notas son personales y no constituyen un tutorial o curso en línea de estas disciplinas . Dicho lo anterior recomiendo en todos los casos comprar los libros citados y tomar cursos adicionales para entender mejor los conceptos fundamentales detras de todo esto.
Ahora si manos a la obra.
Aunque el término aprendizaje estadístico (Statistical Learning) es relativamente nuevo, muchos de los conceptos que lo fundamentan se desarrollaron hace mucho tiempo.
A principios del siglo XIX, Legendre y Gauss publicaron artículos sobre el método de los mínimos cuadrados, que implementaron la forma más antigua de lo que ahora se conoce como regresión lineal. El enfoque se aplicó primero con éxito a los problemas de la astronomía. La regresión lineal se utiliza hoy día en muchos campos de diferentes disciplinas.
Para llevar un orden en lo que vamos aprendiendo, seguiremos el texto "An Introduction to Statistical Learning with Applications in R", de Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani. Este puede ser descargado de la página del autor.
This book provides an introduction to statistical learning methods. It is aimed for upper level undergraduate students, masters students and Ph.D. students in the non-mathematical sciences. The book also contains a number of R labs with detailed explanations on how to implement the various methods in real life settings, and should be a valuable resource for a practicing data scientist.
De igual modo utilizaremos parte del material del profesor Elkin A. Castaño V. que ha traducido al español gran parte del texto. Este material fue facilitado en el Diplomado en Ciencia de Datos: Data Mining de la Universidad del Valle, Cali - Colombia.
El Data Mining ( Minería de Datos) se presenta en la actualidad como una nueva alternativa, que permite explorar grandes bases de datos, de manera automática o semiautomática, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto, con el fin de que puedan usarse para predecir comportamientos futuros, transformando los datos en conocimiento proactivo, para la toma de decisiones de empresas públicas y privadas, científicos, universidades, entre otros.
Este curso está dirigido a las personas que están interesadas en el empleo de métodos estadísticos para la modelación y la predicción a partir de datos. Este grupo de personas no solamente incluye a científicos, ingenieros, analistas de datos, o analistas cuantitativos, sino también a individuos menos técnicos en campos no-cuantitativos tales como las ciencias sociales o los negocios. Se espera que el participante haya tenido por lo menos un curso elemental en Estadística. El nivel matemático del curso es modesto y no se requiere un conocimiento detallado del álgebra matricial.
La comunidad de usuarios de las técnicas de aprendizaje estadístico ha venido creciendo y e incluye individuos con una gama más amplia de intereses y formaciones. Es importante que este grupo heterogéneo sea capaz de comprender los modelos, sus alcances y las fortalezas y debilidades de los diversos enfoques. Pero para este público, muchos de los detalles técnicos de los métodos de aprendizaje estadístico, como los algoritmos de optimización y las propiedades teóricas, no son de interés primordial. Estos estudiantes no necesitan una comprensión profunda de estos aspectos para convertirse en usuarios conocedores de las diversas metodologías, y para contribuir a sus campos de trabajo a través del uso de herramientas de aprendizaje estadístico.
Esta introducción al aprendizaje estadístico se basa en las siguientes cuatro premisas.
-
Muchos métodos de aprendizaje estadístico son relevantes y útiles en una amplia gama de disciplinas académicas y no académicas, más allá de la ciencia Estadística.
-
El aprendizaje estadístico no debe ser visto como una serie de cajas negras.
-
Si bien es importante saber qué trabajo realiza cada engranaje, no es necesario tener las habilidades para construir la máquina dentro de la caja.
-
Suponemos que el lector está interesado en aplicar métodos de aprendizaje estadístico a problemas del mundo real.
Si desea tener una introduccíon un poco mas detallada puede acceder a los videos y archivos de presentación que soportan el curso de Statistical Learning dictados por el Dr. Hastie y el Dr. Tibshirani discuss.
- Presentación en PDF
- Opening Remarks and Examples (Video - duración 18:18)
- Supervised and Unsupervised Learning (Video - duración 12:12)
-
- Regresión lineal simple
- Regresión lineal múltiple
- Extensiones del modelo lineal
- Problemas potenciales
- Algunos gráficos de Ayuda
-
- Vectorización
- Bag of Words
- Procesamiento y análisis de textos
- ¿Que son los NLP?
- ¿Por que utilizar NLP?
- Procesamiento utilizando NLTK
- Procesamiento de texto crudo
- Tokenization
- Otro ejemplo de vectorización o tokenization
- Proceso de textos crudos provenientes de internet o con formato HTML
- Utilizando expresiones regulares
- Normalización de textos
- Otro ejemplo de Stemming
- Etiquetado o Tagging
- Clasificando Texto
- Lemmatization
- Stopword Removal
- Named Entity Recognition
- Term Frequency - Inverse Document Frequency (TF-IDF)
- LDA - Latent Dirichlet Allocation
- EXAMPLE Automatically summarize a document
- Simplified Text Processing
- Data Science Toolkit Sentiment
- Uso de la librería Gensim
- Ejemplo de Análisis de Sentimientos en Competencia Kaggle
- Graficando Texto - WorldCloud