Topic Modeling Analysis in Spanish. Amazon Reviews.
El Modelado de Temas es tal vez la técnica más utilizada para agrupar y encontrar los denominados temas subyacentes u ocultos en los diferentes textos. El presente proyecto de Topic Modeling tiene justamente como propósito encontrar dichos temas dentro de las reseñas u opiniones dadas por los clientes o usuarios de Amazon y que se encuentran en el dataset que se puede descargar del siguiente link.
Para desarrollar lo mencionado anteriormente debe tenerse en cuenta que estamos frente a un problema de aprendizaje no supervisado, esto debido a que nuestros datos no se encuentran etiquetados, es decir, en nuestros datos no se encuentran definidos los temas y por el contrario lo que se hará es encontrarlos.
Para desarrollar este objetivo se emplearán 3 algorítmos frecuentemente utilizados: Latent Semantic Analysis (LSA), Hierarchical Dirichlet Process (HDP) y Latent Dirichlet Allocation (LDA) y se hará uso de librerías como SpaCy, Gensim, ConTexto y sus dependencias en español. Al final, estos algrorítmos tendrán como resultado grupos de palabras que representan un tema y nuestra labor será interpretarlas para enunciar dichos temas.
El presente proyecto tendrá como contenido los siguientes cinco pasos:
- Carga de Datos
- Limpieza y pre-procesamiento de datos
- Ejecución de Modelos
- Visualización del Modelo Final y Conclusiones
Este proyecto también se puede visualizar de manera estática haciendo click aquí.
Nota: Si se desea revisar un Análisis Exploratorio de Datos (EDA) y otras aplicaciones sobre este mismo dataset, se puede consultar el siguiente repositorio en GitHub o el siguiente link de nbviewer.