Workshop - PyCon Colombia 2023

Este repositorio contiene el código para extraer información desde Reddit y realizar NLP al texto de los subreddits tomados.

Este contenido ha sido creado para un taller de Data Streaming y NLP con PySpark.

Contenido

Spark Structured Data Streaming

Este notebook implementa una simulación de spark structured streaming con pyspark de datos extraídos de la api de Reddit. Se realiza un proceso de lectura y escritura "en tiempo real".

Ejecuta el código:

NLP con PySpark

Este notebook en Google Colab te permitirá implementar NLP a la base almacenada en el notebook anterior. Podrás encontrar la lectura de la base utilizando PySpark, el preprocesamiento de texto, implementación de LDA para identificar temáticas en la conversación, wordcloud te temáticas, n-gramas y gráfica de temáticas utilizando la librería pyLDAvis.

Ejecuta el código:

Recursos Spark Structured Data Streaming

Charla Data Streaming con PySpark
Introducción a PySpark
Guía Structured Streaming

Recursos Procesamiento de Lenguaje Natural (NLP)

Hugging Face
Gensim
NLTK

lauralpezb/PyconColombia2023

Workshop - PyCon Colombia 2023

Contenido

Spark Structured Data Streaming

Ejecuta el código:

NLP con PySpark

Ejecuta el código:

Recursos Spark Structured Data Streaming

Recursos Procesamiento de Lenguaje Natural (NLP)