A lo largo de este proyecto, se ha trabajado sobre una Encuesta Anual de Hogares realizada por el Gobierno de la Ciudad de Buenos Aires para el año 2019. Sobre dicho dataset se ha realizado un análisis de datos exploratorio, definiendo y analizando sus variables y estableciendo correlaciones a nivel binario y multivariable. Finalmente, en pos de alcanzar los objetivos específicos del proyecto, se han utilizado modelos de clasificación.
El objetivo de aplicar modelos de clasificación ha sido encontrar el modelo que traiga mejores resultados a fin de poder predecir la variable Target, el Nivel Máximo Educativo, utilizando al resto de las variables.
En ese sentido, se ha implementado un árbol de clasificación y un bosque aleatorio, parametrizando, en cada uno de los casos, ciertas variables convenientes. Asimismo, para ambos modelos, se ha implementado algoritmos de optimización a fin de seleccionar los mejores parámetros para el problema de optimización y mitigar el overfitting del los modelos de partida.
Con respecto a las conclusiones alcanzadas, se han visto buenos resultados en los modelos optimizados con hiperparametros, los cuales han performado de manera esperada, alcanzando modelos robustos.
Throughout this project, we have worked on an Annual Household Survey conducted by the Government of the City of Buenos Aires for the year 2019. An exploratory data analysis has been carried out on this dataset, defining and analyzing its variables and establishing correlations between them. Finally, in order to achieve the specific objectives of the project, classification models have been used.
The objective of applying classification models has been to find the model that brings the best results to predict the Target, the Highest Level of Education, using the rest of the variables.
In this sense, a classification tree and a random forest have been implemented, parameterizing, in each case, certain variables. Likewise, for both models, optimization algorithms have been implemented in order to select the best parameters for the optimization problem and mitigate the overfitting of the starting models.
Regarding the conclusions reached, good results have been seen in the models optimized with hyperparameters, which have performed as expected, reaching robust models.
-
🪐
Proyecto Final.ipynb:
Jupyter Notebook del proyecto final, con código en PYthon -
📚
encuesta-anual-hogares-2019.csv
: Base de datos con la que trabajaremos en el proyecto -
🗺️
comunas.geojson
: Mapa con las comunas de la Ciudad Autónoma de Buenos Aires. Será útil para realizar gráficos -
🛠️🐍
Funciones
: Lista de funciones en formato.py
para su uso en el Jupyter notebook- Exploratory_Data_Analysis.py: Funciones para el análisis exploratorio de datos
- Modelado.py: Funciones para la generación de modelos para su entrenamiento
-
💹
Presentación
- Presentación Proyecto Final: en formato
.pdf
y.tex
- Presentación Proyecto Final: en formato
-
📕
Informe
- Informe Proyecto Final: en formato
.pdf
y.tex
- CSV: Tablas utilizadas para el informe
- Imágenes: Gráficos utilizados para el informe y la presentación
- Informe Proyecto Final: en formato