/pyspark-ingenieria-de-datos

Este repositorio contiene el material del curso de Udemy Big Data y Spark: ingeniería de datos con Python y pyspark. En este curso, aprenderás a utilizar las herramientas y técnicas necesarias para trabajar con grandes conjuntos de datos utilizando la librería pyspark.

Primary LanguagePython

Big Data y Spark: ingeniería de datos con Python y pyspark

Este repositorio contiene el material del curso de Udemy Big Data y Spark: ingeniería de datos con Python y pyspark. En este curso, aprenderás a utilizar las herramientas y técnicas necesarias para trabajar con grandes conjuntos de datos utilizando la librería pyspark, la cual nos permite el trabajo con Apache Spark.

Estructura del repositorio

El repositorio está organizado en secciones, cada una de las cuales corresponde a una sección del curso. Dentro de cada sección, encontrarás los archivos .py correspondientes a las lecciones del curso.

Contenido de las secciones

  • Sección 2: Descargando e instalado Spark en Google Colaboratory
  • Sección 3: Introducción a los RDD en Spark
  • Sección 4: Transformaciones en un RDD
  • Sección 5: Acciones sobre un RDD en Spark
  • Sección 6: Aspectos avanzados sobre RDD
  • Sección 7: Spark SQL
  • Sección 8: Spark SQL avanzado
  • Sección 9: Funciones en Spark SQL

Cada sección del repositorio contiene los siguientes archivos:

Archivos .py: Estos archivos contienen el código Python que se utiliza en las lecciones del curso.