/TxtPreProcessor

Clase para pre procesar texto español contenido en un csv

Primary LanguagePython

TxtPreProcessor

Clase para pre procesar texto español contenido en un csv. El pre procesamiento de texto consiste en:

  1. Identificar y separar el contenido en español solamente
  2. Convertir a minúsculas
  3. Remover la puntuación
  4. Manejar carácteres unicode
  5. Remover palabras comunes
  6. Limpiar documento de registros vacíos y otro tipo de cadenas con contenido basura
  7. Reducir las palabras a su raíz

Lenguaje de Programación

Python 3.6.5

Instalación

Las dependencias de esta clase se encuentran en el archivo requirements.txt

¿Cómo utilizarlo?

Luego de clonar la clase, utilizando la línea de comandos navegar a la carpeta raíz TXTPreProcessor y ejecutar python cleaner.py

Licencia

MIT License