TO DO
- Clasificación Binaria
- El usuario ingresa un archivo csv con 11 columnas y el programa me devuelve una columna que me devuelva si es bueno o malo
- Lograr un accuracy de 92%
- Hacer regresion lineal. La regresión lineal saca un numero continuo entre 0 - 10
- Con regresión logística y con arboles de decisión (80%). Para definir si un vino es bueno o malo.
- Hacer una pequeña regresión lineal que devuelve un numero entre 0 y 10
- Hacer grafica para minimizar FN o FP (Ejemplo Amazon).
- Matriz de confusión
- Entregar un análisis de las graficas y el código para ejecutar las pruebas
- Graficas: Graficas de sklearn por defecto, Graficar dos de las variables relevantes con los puntos de test por debajo.
- Hacer varios modelos, comparar y elegir el mejor
- Explicar por que y como se logró el accuracy
- ¿¿¿Proporcionalmente son mayores los vinos buenos o los malos???
- Sacar probabilidades a priori, los buenos/todo. Los malos/todo.
- Opcional random forest
- Explicar los experimentos que se hicieron
- Graficar en dos ejes todas las combinaciones de dos variables y elegir las mas relevantes
- Tenemos dos modelos: Arboles y regresión logística
- Independiente del modelo se siguen estos pasos
- Partir en train(70%), test(20%)
- Validacion (10%)
- Decisiones: ¿Que variables tomar para cada tipo de modelo?
- De los modelos de experimento que se hicieron, lo que normalmente se hace es elegir el mejor de cada familia (Arboles o Clasificación) y aplicarle otro modelo. Luego usar el conjunto de test
- El modelo ganador se entrena con train + test
- Luego se eligen las variables mas importantes, se hace una regresión lineal con train y luego se mira con test que error están teniendo. Luego de mostrar ese error se pone en el trabajo y se reentrena con train + test.