Este repositorio contiene el código para extraer información desde Reddit y realizar NLP al texto de los subreddits tomados.
Este contenido ha sido creado para un taller de Data Streaming y NLP con PySpark.
Este notebook implementa una simulación de spark structured streaming con pyspark de datos extraídos de la api de Reddit. Se realiza un proceso de lectura y escritura "en tiempo real".
Este notebook en Google Colab te permitirá implementar NLP a la base almacenada en el notebook anterior. Podrás encontrar la lectura de la base utilizando PySpark, el preprocesamiento de texto, implementación de LDA para identificar temáticas en la conversación, wordcloud te temáticas, n-gramas y gráfica de temáticas utilizando la librería pyLDAvis.