Este repositorio contiene el material del curso de Udemy Big Data y Spark: ingeniería de datos con Python y pyspark. En este curso, aprenderás a utilizar las herramientas y técnicas necesarias para trabajar con grandes conjuntos de datos utilizando la librería pyspark
, la cual nos permite el trabajo con Apache Spark.
El repositorio está organizado en secciones, cada una de las cuales corresponde a una sección del curso. Dentro de cada sección, encontrarás los archivos .py
correspondientes a las lecciones del curso.
- Sección 2: Descargando e instalado Spark en Google Colaboratory
- Sección 3: Introducción a los RDD en Spark
- Sección 4: Transformaciones en un RDD
- Sección 5: Acciones sobre un RDD en Spark
- Sección 6: Aspectos avanzados sobre RDD
- Sección 7: Spark SQL
- Sección 8: Spark SQL avanzado
- Sección 9: Funciones en Spark SQL
Cada sección del repositorio contiene los siguientes archivos:
Archivos .py
: Estos archivos contienen el código Python que se utiliza en las lecciones del curso.