Este es un curso introductorio para algunas de las herramientas mas utilizadas en el mundo de Big Data
-
Lenguajes de programacion
- Python
- Tipos de variables
- Numpy
- Tratamiento de datos
- Pandas
- Estructura de directorios
- Cookiecutter
- R o R studio (Opcional)
- Python
-
Control de versiones de codigo
- GitHub
-
Cloud Computing
- Google Cloud Platform
- Virual Machines
- Compute Engine
- Data lake y warehouse
- Cloud Storage
- Google Big Query (SQL)
- Procesamiento de datos distribuido (Opcional)
- Apache Airflow
- Google Cloud Dataflow
- Apache Airflow
-
Herramientas de visualizacion
- Google Data Studio
3 tareas programadas:
- 30% tratamiento de datos (ETL en local) para limpieza y unificacion de datos (Volumen de llamadas al 123 en Bogota).
- 40% tratamiento de datos (ETL en cloud) para limpieza y unificacion de datos (Volumen de llamadas al 123 en Bogota).
- 30% reporte de datos, dashboard automatizado