Ideas preprocesamiento
Closed this issue · 0 comments
Juane99 commented
Utilizo esta issue para subir el preprocesamiento de los datos que he hecho, para ver si os parece bien y lo podéis completar.
En mi preprocesamiento hago lo siguiente:
- Coercionar las variables al tipo que considero conveniente después de leer la descripción de cada una.
- Eliminar la primera variable (ID).
- Eliminar las variables poco relevantes con un porcentaje de missing values cercano o superior al 50%
- Comprobar que los valores únicos de las variables son correctos y no hay variaciones del mismo valor alternando mayúsculas y minúsculas (por ejemplo).
- Comprobar que el orden de los levels de los factores ordenados es correcto.
- Imputar el resto de missing values usando "Proportional adds model" para factores ordenados, "Logistic regression" para booleanos, "Polyreg" para factores no ordenados con más de dos niveles, "Pmm" para las dos variables numéricas.
- He combinado las dos variables objetivo en una y he usado FSelectorRcpp para ver qué variables son relevantes para ambas variables objetivo.