/python-data-engineering

Ejercicios prácticos de ingeniería de datos con Python. ⚙️

Primary LanguageJupyter NotebookMIT LicenseMIT

⚙️ Python Data Engineering

Este repositorio contiene notebooks enfocados en conceptos, tecnologías y herramientas clave de ingeniería de datos: almacenamiento distribuido (HDFS), procesamiento paralelo (Spark), transmisión de datos (Kafka), y frameworks modernos como Dask y Polars.

🚧 En construcción. El contenido seguirá creciendo conforme avance el aprendizaje.

🛠️ Tecnologías Utilizadas

  • 🐍 Python – Base principal para scripting y desarrollo
  • 💾 HDFS – Sistema distribuido de archivos
  • ⚡ Apache Spark – Procesamiento distribuido de datos (PySpark, MLlib, Streaming)
  • 📊 Kafka – Plataforma de streaming para ingestión de datos en tiempo real
  • 🔗 GraphFrames – Análisis de grafos sobre Spark
  • ⚙️ MapReduce – Modelo de programación distribuida
  • ⚡ Dask & Polars – Herramientas modernas para manipulación de datos a gran escala
  • 📓 Jupyter Notebook – Desarrollo y documentación interactiva

📩 Contacto

Si tienes alguna pregunta o sugerencia, contáctame por LinkedIn