Este proyecto realiza la extracción, transformación y carga (ETL) de datos de enfermedades respiratorias agudas del Ministerio de Salud de la Nación.
El proyecto consta de los siguientes archivos y directorios:
-
dags/procesamiento.py
: Este archivo Python contiene las funciones utilizadas para la extracción, transformación y carga de los datos. -
dags/ETL_enfermedades_respiratorias_agudas.py
: Este archivo define el DAG (Directed Acyclic Graph) para Apache Airflow, que automatiza y programa la ejecución de las tareas de ETL. -
requirements.txt
: Este archivo lista las dependencias de Python necesarias para ejecutar el proyecto.
En el caso de que quieras ejecutar el proyecto en tu computadora, deberás definir las siguientes variables de entorno creando en el directorio raíz del proyecto un archivo .env
el cual contendra las credenciales de acceso a tu base de datos con el siguiente contenido:
# .env
POSTGRES_USER=ejemplo-user
POSTGRES_PASSWORD=ejemplo-password
POSTGRES_DB=ejemplo-db
POSTGRES_HOST=ejemplo-host
POSTGRES_PORT=5432
-
Clonar el repositorio
-
ejecutar
docker compose build
en la raíz del proyecto para construir la imagen de nuestro proyecto en Docker e instalar las dependencias de Python -
ejecutar
docker compose airflow-init
en la raíz del proyecto -
ejecutar
docker compose up
en la raíz del proyecto -
Abrir el navegador en
localhost:8080
y activar el DAGETL_enfermedades_respiratorias_agudas
-
Ejecutar el DAG