/PyconColombia2023

Data Streaming y NLP con PySpark - Workshop

Primary LanguageJupyter Notebook

banner

Workshop - PyCon Colombia 2023

Este repositorio contiene el código para extraer información desde Reddit y realizar NLP al texto de los subreddits tomados.

Este contenido ha sido creado para un taller de Data Streaming y NLP con PySpark.

Contenido

Spark Structured Data Streaming

Este notebook implementa una simulación de spark structured streaming con pyspark de datos extraídos de la api de Reddit. Se realiza un proceso de lectura y escritura "en tiempo real".

Ejecuta el código:

Open In Colab

NLP con PySpark

Este notebook en Google Colab te permitirá implementar NLP a la base almacenada en el notebook anterior. Podrás encontrar la lectura de la base utilizando PySpark, el preprocesamiento de texto, implementación de LDA para identificar temáticas en la conversación, wordcloud te temáticas, n-gramas y gráfica de temáticas utilizando la librería pyLDAvis.

Ejecuta el código:

Open In Colab

Recursos Spark Structured Data Streaming

Recursos Procesamiento de Lenguaje Natural (NLP)