a. Análisis exploratorio de datos (50%):
PARTE 1 (32%): la primera parte de este punto corresponde a la tarea de clase asignada anteriormente, “Usando los datos encontrados en https://www.kaggle.com/shantanudhakadd/house-prediction-dataset , realice un entendimiento del negocio y de los datos en un notebook de Python”. Dicha parte corresponde a un valor total del 32% del taller (esta parte ya fue evaluada).
PARTE 2 (18%): La segunda parte de este punto consiste en complementar la tarea de clase correspondiente al análisis exploratorio de datos de casas en Bangalore.
Se deben realizar las siguientes tareas:
- Corregir el ejercicio con la retroalimentación dada en clase a su trabajo.
- Realizar el rellenado por imputación de los datos faltantes.
- Utilizar métodos univariados y multivariados de detección de outliers
- Hallar la importancia de las variables con varios métodos (las variables que más impacten en el precio de una casa).
- Presentar visualizaciones que apoyen las evidencias de cuáles variables son más influyentes.
- Incluya también las sugerencias de posibles pasos futuros a desarrollar (es decir, en un par de párrafos, mencione como se abordarían a futuro el resto de las etapas del CRISP-DM en este problema).
b. Otros ejercicios de analítica de datos (50%):
1 • Realice y entregue resuelto el ejercicio de clase sugerido pendiente correspondiente a la clase donde vimos el tema “Introducción a Pandas” y se dejó una tarea sugerida de 5 puntos de manejo de Pandas.
2 • Investigue cómo funciona el método de regresión lineal robusta llamado “RANSAC Regressor”. Luego, a través de simulación, genere una población de valores correspondientes a una regresión lineal simple con ruido (una entrada y una salida). Añada una pequeña cantidad de valores extremos atípicos a la población. Compare visualmente el rendimiento de la regresión lineal clásica y del RANSAC Regressor al momento de ajustarse a los datos de la población.
3 • Descargue e instale la versión gratuita de PowerBI llamada “PowerBI Desktop”. Utilícela para crear un tablero de control que muestre los principales KPI del conjunto de datos de la asignación de vacunas a los departamentos que se encuentra en la siguiente ruta: https://www.datos.gov.co/Salud-y-Protecci-n-Social/Asignaci-n-de-dosis-de-vacuna-contra-COVID-19/sdvb-4x4j
El tablero debe responder preguntas relacionadas con la distribución de vacunas por departamento, su variación a través del tiempo, el uso destinado para la vacuna (grupo al que está destinada, número de dosis, etc.), el laboratorio que produjo la vacuna, entre otros.
4 • Construya un programa que extraiga y analice de forma automática la información de “National Parks” de la siguiente página https://www.bl.uk/collection-metadata/downloads# . El objetivo del programa es que les permita a sus usuarios responder la siguiente pregunta: ¿Cuáles son las temáticas (topics) más populares de cada país? El programa debe conectarse directamente desde código a la página, descargar el zip, descomprimirlo y cargar el csv a pandas para responder la pregunta (no es válido que usted descargue y descomprima el archivo; esto debe hacerlo Python).
5 • Usted compró recientemente el álbum de láminas para el mundial. Suponga que el álbum tiene 300 láminas y que la probabilidad de sacar cualquier lámina es uniforme (es decir, todas las láminas tienen la misma probabilidad de salir). Usando Python, cree un código que de forma aleatoria empiece a sacar una por una las láminas hasta que “llene” completamente el álbum, registrando cuántas láminas tuvo que sacar en total. En Python, repita el experimento anterior unas 10000 veces, y registre en cada experimento el número de láminas que tuvo que sacar para poder llenar el álbum y grafique este valor en un histograma. ¿Cuál es el número promedio de láminas que se necesitan?