Analysis exploratoria et alia exercitia analytica data.

Taller de análisis de datos:

a. Análisis exploratorio de datos (50%):

PARTE 1 (32%): la primera parte de este punto corresponde a la tarea de clase asignada anteriormente, “Usando los datos encontrados en https://www.kaggle.com/shantanudhakadd/house-prediction-dataset , realice un entendimiento del negocio y de los datos en un notebook de Python”. Dicha parte corresponde a un valor total del 32% del taller (esta parte ya fue evaluada).

PARTE 2 (18%): La segunda parte de este punto consiste en complementar la tarea de clase correspondiente al análisis exploratorio de datos de casas en Bangalore.

Se deben realizar las siguientes tareas:

Corregir el ejercicio con la retroalimentación dada en clase a su trabajo.
Realizar el rellenado por imputación de los datos faltantes.
Utilizar métodos univariados y multivariados de detección de outliers
Hallar la importancia de las variables con varios métodos (las variables que más impacten en el precio de una casa).
Presentar visualizaciones que apoyen las evidencias de cuáles variables son más influyentes.
Incluya también las sugerencias de posibles pasos futuros a desarrollar (es decir, en un par de párrafos, mencione como se abordarían a futuro el resto de las etapas del CRISP-DM en este problema).

b. Otros ejercicios de analítica de datos (50%):

1 • Realice y entregue resuelto el ejercicio de clase sugerido pendiente correspondiente a la clase donde vimos el tema “Introducción a Pandas” y se dejó una tarea sugerida de 5 puntos de manejo de Pandas.

2 • Investigue cómo funciona el método de regresión lineal robusta llamado “RANSAC Regressor”. Luego, a través de simulación, genere una población de valores correspondientes a una regresión lineal simple con ruido (una entrada y una salida). Añada una pequeña cantidad de valores extremos atípicos a la población. Compare visualmente el rendimiento de la regresión lineal clásica y del RANSAC Regressor al momento de ajustarse a los datos de la población.

3 • Descargue e instale la versión gratuita de PowerBI llamada “PowerBI Desktop”. Utilícela para crear un tablero de control que muestre los principales KPI del conjunto de datos de la asignación de vacunas a los departamentos que se encuentra en la siguiente ruta: https://www.datos.gov.co/Salud-y-Protecci-n-Social/Asignaci-n-de-dosis-de-vacuna-contra-COVID-19/sdvb-4x4j

El tablero debe responder preguntas relacionadas con la distribución de vacunas por departamento, su variación a través del tiempo, el uso destinado para la vacuna (grupo al que está destinada, número de dosis, etc.), el laboratorio que produjo la vacuna, entre otros.

4 • Construya un programa que extraiga y analice de forma automática la información de “National Parks” de la siguiente página https://www.bl.uk/collection-metadata/downloads# . El objetivo del programa es que les permita a sus usuarios responder la siguiente pregunta: ¿Cuáles son las temáticas (topics) más populares de cada país? El programa debe conectarse directamente desde código a la página, descargar el zip, descomprimirlo y cargar el csv a pandas para responder la pregunta (no es válido que usted descargue y descomprima el archivo; esto debe hacerlo Python).

5 • Usted compró recientemente el álbum de láminas para el mundial. Suponga que el álbum tiene 300 láminas y que la probabilidad de sacar cualquier lámina es uniforme (es decir, todas las láminas tienen la misma probabilidad de salir). Usando Python, cree un código que de forma aleatoria empiece a sacar una por una las láminas hasta que “llene” completamente el álbum, registrando cuántas láminas tuvo que sacar en total. En Python, repita el experimento anterior unas 10000 veces, y registre en cada experimento el número de láminas que tuvo que sacar para poder llenar el álbum y grafique este valor en un histograma. ¿Cuál es el número promedio de láminas que se necesitan?

ijrios/opus_data_analysis

Analysis exploratoria et alia exercitia analytica data.

Taller de análisis de datos: