/knowledge-engineering

Machine Learning pipelines and analysis

Primary LanguageJupyter Notebook

knowledge-engineering

TO DO

  • Clasificación Binaria
  • El usuario ingresa un archivo csv con 11 columnas y el programa me devuelve una columna que me devuelva si es bueno o malo
  • Lograr un accuracy de 92%
  • Hacer regresion lineal. La regresión lineal saca un numero continuo entre 0 - 10
  • Con regresión logística y con arboles de decisión (80%). Para definir si un vino es bueno o malo.
  • Hacer una pequeña regresión lineal que devuelve un numero entre 0 y 10
  • Hacer grafica para minimizar FN o FP (Ejemplo Amazon).
  • Matriz de confusión
  • Entregar un análisis de las graficas y el código para ejecutar las pruebas
  • Graficas: Graficas de sklearn por defecto, Graficar dos de las variables relevantes con los puntos de test por debajo.
  • Hacer varios modelos, comparar y elegir el mejor
  • Explicar por que y como se logró el accuracy
  • ¿¿¿Proporcionalmente son mayores los vinos buenos o los malos???
  • Sacar probabilidades a priori, los buenos/todo. Los malos/todo.
  • Opcional random forest
  • Explicar los experimentos que se hicieron
  • Graficar en dos ejes todas las combinaciones de dos variables y elegir las mas relevantes
  • Tenemos dos modelos: Arboles y regresión logística
  • Independiente del modelo se siguen estos pasos
  • Partir en train(70%), test(20%)
  • Validacion (10%)
  • Decisiones: ¿Que variables tomar para cada tipo de modelo?
  • De los modelos de experimento que se hicieron, lo que normalmente se hace es elegir el mejor de cada familia (Arboles o Clasificación) y aplicarle otro modelo. Luego usar el conjunto de test
  • El modelo ganador se entrena con train + test
  • Luego se eligen las variables mas importantes, se hace una regresión lineal con train y luego se mira con test que error están teniendo. Luego de mostrar ese error se pone en el trabajo y se reentrena con train + test.