Proyecto de análisis de datos en recursos humanos con fines pedagógicos para personas hispano parlantes
- El problema está resuelto en tres partes:
- Parte 1: Contiene el EDA + la transformación y selección de variables
- Parte 2: Contiene la selección de modelos
- Parte 3: Contiene la aplicación del modelo y la interpretación de resultados
En esta primera versión he liberado la parte 1, la cual utiliza como herramientas:
- Histogramas, boxplot, barplot, scatterplots con y sin agrupación
- Medidas de tendencia central
- test estadsticos de mutual information y chi2
- Utilización del algoritmo RFE con los algoritmos Random Forest, Gradient boosting, Regresión logística y SVC lineal para la selección de variables
- Utiliza Random Under Sample como método para balancear las clases
El objetivo de liberar esta primera versión es recibir el feedback de la comunidad e ir perfeccionando el tutorial
incoporando las sugerencias y correcciones. Para ello pueden comentar directamente acá como un issues cuando sea una
corrección o como un comentario si lo que desean hacer es solo comentar algo.
todas las referencias utilizadas están explicitamente mencionadas a través de link en el notebook