UC-IIC2613/Syllabus

[Tarea 4] Preprocesamiento de datos

Opened this issue · 5 comments

Hola, me quedó una duda con el preprocesamiento de datos.

En la pregunta 1 mencionan que hay que aplicar una estrategia para la limpieza y transformación de los datos. Además se dice que hay que ver que hacer con las columnas con datos no numéricos. Entiendo esto perfecto y me queda claro lo que hay que hacer. Mi problema es que en la pregunta 2 se vuelve a pedir un preprocesamiento de datos. No entiendo realmente qué más habría que hacer en la pregunta 2, dado que en la 1 se supone que ya preprocesamos los datos.

Hola! En la parte uno de la pregunta no se preprocesan los datos, si no mas bien se obtienen o leen. En la parte dos debes hacer tres grandes tareas:

  1. Preprocesar los datos de la matriz que construiste en la parte uno, para esto sería bueno que te preguntaras, ¿cuáles técnicas conoces? debes elegir una, justificar su elección y aplicarla.
  2. Debes realizar/justificar la división de datos
  3. Mostrar las formas de las matrices, esto te sirve para verificar que todo este en orden.

Recuerda que en el preprocesamiento lo que buscas es pasar los datos a un formato óptimo y adecuado. Espero haya quedado más claro. Si te surgen más preguntas no dudes en consultar. Exito con la tarea!

Gracias por la respuesta! Lo otro es que la división debe hacerse en la parte 2? No entiendo por qué en la parte 1 piden crear la matriz X y el vector "y". A mi me hace mucho más sentido dividir los sets (test, train y validación), y crear las matrices X y los vectores "y" correspondientes después de haber procesado los datos.

De lo que entendí de tu respuesta lo que debería hacer en la parte 1 es cargar los datos y mostrarlos (mostrar el head). Y luego en la parte 2 preprocesarlos (limpiarlos y transformar las columnas no numéricas), junto con separar los sets y crear las matrices X y los vectores "y" correspondientes. No se si me equivoco con esto (me confunde mucho el enunciado).

Debes tener cuidado en esos pequeños detalles, ya que el enunciado indica que en la primera parte solo debes separar el set de test del set de datos y luego en la parte dos el set de datos se divide en validación y entrenamiento.
Como lo indica el enunciado en la primera parte debes leer los datos, hacer una limpieza y justificarla, separar el set de test y construir las matrices.
En la segunda parte debes realizar el preprocesamiento (tener cuidado que no es lo mismo que la limpieza anterior), la división del set de datos (validación y entrenamiento) y utilizar el atributo shape.

Ah perfecto gracias! Una última duda, perdón por la molestia, en este caso esa limpieza de datos no incluye la transformación de las columnas no númericas o si? Eso se haría en la segunda parte entonces?

El enunciado indica que la transformación de columnas no numéricas se debe hacer en la parte 1