- Lectura de CSV
- Transformación de CSV a dataframe (DF, utilizando pandas)
- Extracción en un nuevo DF con los mensajes de spam ya clasificados.
- Creamos un string nuevo cuyo contenido sea la concatenación de cada mensaje de spam, eliminando los dígitos.
- Tokenizamos las palabras que nos interesan (quitando stop words) utilizando la librería spacy
- Creamos una lista de palabras comunes en los mensajes de spam
- Creamos una función para clasificar un texto en spam o safe. Si un texto contiene al menos un 25% de palabras comunes en mensajes spam, se clasificará como spam. Si no, se clasificará como safe.
- Creamos la tabla final con los mensajes filtrados utilizando la función descrita en el anterior punto.
- Convertimos esta tabla a CSV.