RETO TAPPX INDIVIDUAL

Pasos seguidos para la clasificación de mensajes:

Lectura de CSV
Transformación de CSV a dataframe (DF, utilizando pandas)
Extracción en un nuevo DF con los mensajes de spam ya clasificados.
Creamos un string nuevo cuyo contenido sea la concatenación de cada mensaje de spam, eliminando los dígitos.
Tokenizamos las palabras que nos interesan (quitando stop words) utilizando la librería spacy
Creamos una lista de palabras comunes en los mensajes de spam
Creamos una función para clasificar un texto en spam o safe. Si un texto contiene al menos un 25% de palabras comunes en mensajes spam, se clasificará como spam. Si no, se clasificará como safe.
Creamos la tabla final con los mensajes filtrados utilizando la función descrita en el anterior punto.
Convertimos esta tabla a CSV.