⚙️ Python Data Engineering

Este repositorio contiene notebooks enfocados en conceptos, tecnologías y herramientas clave de ingeniería de datos: almacenamiento distribuido (HDFS), procesamiento paralelo (Spark), transmisión de datos (Kafka), y frameworks modernos como Dask y Polars.

🚧 En construcción. El contenido seguirá creciendo conforme avance el aprendizaje.

🛠️ Tecnologías Utilizadas

🐍 Python – Base principal para scripting y desarrollo
💾 HDFS – Sistema distribuido de archivos
⚡ Apache Spark – Procesamiento distribuido de datos (PySpark, MLlib, Streaming)
📊 Kafka – Plataforma de streaming para ingestión de datos en tiempo real
🔗 GraphFrames – Análisis de grafos sobre Spark
⚙️ MapReduce – Modelo de programación distribuida
⚡ Dask & Polars – Herramientas modernas para manipulación de datos a gran escala
📓 Jupyter Notebook – Desarrollo y documentación interactiva

📩 Contacto

Si tienes alguna pregunta o sugerencia, contáctame por LinkedIn

ReusJimenez/python-data-engineering

⚙️ Python Data Engineering

🛠️ Tecnologías Utilizadas

📩 Contacto