El trabajo consiste en procesar varios dataset de diversos formatos, transformar los datos para extraer dato valioso y finalmente generar un archivo de SQL para su posterior carga en cualquier DataLake en un workflow.
Podes acceder a la consigna completa en el siguiente: link
El workflow de ETL consiste en tres etapas: Extracción, Tranformación y Carga como sigue en la siguiente imagen.
Para la elaboración de este workflow se utilizó principalmente Python con las siguiente librerías:
- Jupyter - Interfaz
- Pandas - Para manipulación de datos
- Pathlib - Para gestión de path
- Chardet - Para identificar el encoding de los archivos
- re - Para gestión de las expresiones regulares
- mysql.connector - Para conectar y gestionar base de datos en mySQL
- Para correr el script en línea primero deberás crear un acceso directo a los datasets usando google drive. Para hacerlo acceder al siguiente link
-
Luego podes acceder al siguiente notebook en línea.
-
En la celda #2 deberás conceder permisos para que tu cuenta de google drive pueda tener acceso a los datasets enviados.
-
Finalmente podrás seguir todo el flujo de trabajo hasta la exportación de los datasets limpios.
Nota: Para realizar el último paso donde cargas los datos en el DataLake mediante los archivos SQL deberás descargar los archivos ubicados en: archivos SQL, luego ejecutarlos en tu workbench de preferencia y finalmente tendrás creada una base de datos con los datasets enviados.
Finalmente creamos una base de datos con el siguiente Diagrama ER:
¡Gracias a quienes hicieron posible este proyecto!