Este repositorio contiene notebooks enfocados en conceptos, tecnologías y herramientas clave de ingeniería de datos: almacenamiento distribuido (HDFS), procesamiento paralelo (Spark), transmisión de datos (Kafka), y frameworks modernos como Dask y Polars.
🚧 En construcción. El contenido seguirá creciendo conforme avance el aprendizaje.
- 🐍 Python – Base principal para scripting y desarrollo
- 💾 HDFS – Sistema distribuido de archivos
- ⚡ Apache Spark – Procesamiento distribuido de datos (PySpark, MLlib, Streaming)
- 📊 Kafka – Plataforma de streaming para ingestión de datos en tiempo real
- 🔗 GraphFrames – Análisis de grafos sobre Spark
- ⚙️ MapReduce – Modelo de programación distribuida
- ⚡ Dask & Polars – Herramientas modernas para manipulación de datos a gran escala
- 📓 Jupyter Notebook – Desarrollo y documentación interactiva
Si tienes alguna pregunta o sugerencia, contáctame por LinkedIn