Eres el nuevo analista de datos de tu empresa, acabas de incorporarte y te han encargado un marrón del que no puedes escapar. Hay una reunión urgente el próximo martes con un comprador súper interesado en tu producto/servicio. Tienes que convencer a esas personas de que tu producto/servicio es increíble y solo te han dejado un dataset...crees que no vas a conseguirlo, pero vas a limpiarlo, enriquecerlo, analizarlo y con la magia de los gráficos lograrás convencer a todo el mundo de LO QUE QUIERAS.
Los objetivos de este proyecto son poner en práctica todo lo que has aprendido durante estas semanas. Trabajar en diferentes formatos de archivos. Realizar funciones que tengan diferentes propósitos. Poder importar diversos archivos de funciones a un jupyter notebook. Afianzar y superarte en tus conocimientos de Pandas y otras librerías utilizadas en clase. Manejar un dataset nuevo a la perfección. Contar una historia sacando conclusiones gracias a los gráficos que puedas pintar.
Obligatoriedad de los requisitos:
✅ = Obligatorio
🚀 = Opcional (pero recomendable)
🔥 = Bonus
-
Jupyters notebook:
- Limpieza de los datos: Tendrás un jupyter notebook donde limpies el dataset que te has descargado. ✅
- Enriquecido de datos: Tendrás un jupyter notebook donde harás llamadas a alguna API o Web Scraping para obtener más datos y así enriquecer los que ya tienes. ✅
- Story telling: donde partes de los datos limpios para crear un reporte para tu posible comprador con tablas, gráficas y todo lo necesario para convencerle de que es una buena inversión. Acuérdate que eso es lo que se entregará directamente al cliente, tiene que estar limpio, cristalino y bonito (para entrar a vivir). ✅
- Realiza un dashboard con streamlit interactivo. 🚀
-
Código en funciones:
- Deberías hacer funciones de proposito unico, parametrizadas. ✅
- Diferentes archivos .py con funciones, uno de ellos para limpieza, el resto a tu criterio. 🚀
- Tiene que haber más de 3 funciones en todo el proyecto. ✅
-
Gráficos:
- Tiene que haber, al menos, dos librerías diferentes de gráficos. 🚀 (Matplotlib, seaborn, plotly) Una es obligatoria, más de una es opcional.
- Elegir diferentes tipos de gráficos, por ejemplo:
- Bar.
- Line.
- Pie.
- Candlestick.
- Los gráficos deben tener títulos, leyendas, nombres en los ejes... ✅
-
Técnicas de Python:
- Regex, al menos una expresión regular para la limpieza. ✅
- Lambda, por lo menos una función lambda en el proyecto. ✅
- Apply, aplicar una función al menos al dataset mediante un .apply ✅
-
Base de datos
- Guarda tus datos en una base de datos de SQL. 🔥
- Guarda tus datos en una base de datos de MongoDB. 🔥 Elige una base de datos o ... ¡las dos!
Elige un dataset de Kaggle https://www.kaggle.com/ o... ¡varios!. Temática libre. Analízalo, explóralo a fondo. Después limpialo y dale la forma que necesites para contar tu historia. Piensa que tienes que convencer a una gente importante y tu futuro depende de ello. Ayúdate de otras fuentes de datos para tener aún más información, cuantos más datos... ¡¡mejor!! Aplica todas las funciones que necesites para ello. Saca los gráficos más molones y mejor explicados de la historia.