/workflow_ETL

Primary LanguageJupyter NotebookGNU General Public License v3.0GPL-3.0

TRABAJO INDIVIDUAL DE ETL

El trabajo consiste en procesar varios dataset de diversos formatos, transformar los datos para extraer dato valioso y finalmente generar un archivo de SQL para su posterior carga en cualquier DataLake en un workflow.

Podes acceder a la consigna completa en el siguiente: link

El workflow de ETL consiste en tres etapas: Extracción, Tranformación y Carga como sigue en la siguiente imagen.

Proceso de ETL

Tecnologías

Para la elaboración de este workflow se utilizó principalmente Python con las siguiente librerías:

  • Jupyter - Interfaz
  • Pandas - Para manipulación de datos
  • Pathlib - Para gestión de path
  • Chardet - Para identificar el encoding de los archivos
  • re - Para gestión de las expresiones regulares
  • mysql.connector - Para conectar y gestionar base de datos en mySQL

Archivos Originales

Archivos

¿Cómo correr el script en línea usando solo Google Colab?

  1. Para correr el script en línea primero deberás crear un acceso directo a los datasets usando google drive. Para hacerlo acceder al siguiente link

Añadir acceso directo

  1. Luego podes acceder al siguiente notebook en línea.

  2. En la celda #2 deberás conceder permisos para que tu cuenta de google drive pueda tener acceso a los datasets enviados.

  3. Finalmente podrás seguir todo el flujo de trabajo hasta la exportación de los datasets limpios.

Nota: Para realizar el último paso donde cargas los datos en el DataLake mediante los archivos SQL deberás descargar los archivos ubicados en: archivos SQL, luego ejecutarlos en tu workbench de preferencia y finalmente tendrás creada una base de datos con los datasets enviados.

Finalmente creamos una base de datos con el siguiente Diagrama ER:

Diagrama ER

¡Gracias a quienes hicieron posible este proyecto!