Clase para pre procesar texto español contenido en un csv. El pre procesamiento de texto consiste en:
- Identificar y separar el contenido en español solamente
- Convertir a minúsculas
- Remover la puntuación
- Manejar carácteres unicode
- Remover palabras comunes
- Limpiar documento de registros vacíos y otro tipo de cadenas con contenido basura
- Reducir las palabras a su raíz
Python 3.6.5
Las dependencias de esta clase se encuentran en el archivo requirements.txt
Luego de clonar la clase, utilizando la línea de comandos navegar a la carpeta raíz TXTPreProcessor y ejecutar python cleaner.py
MIT License