/Cuba

Primary LanguageC

Leccion de analisis de texto

En esta leccion se uso el texto de Alejandro Humboldt titulado "SITIOS DE LAS CORDILLERAS Y MONUMENTOS DE LOS PUEBLOS INDÍGENAS DE AMERICA"

Orden de trabajo:

Paso 1

  • El documento de Python titulado pdfajpeg.py convirtio el pdf de dicho texto a imagenes de cada pagina.

Paso 2

  • El documento de Python titulado ROCcompleto.py convierte todas las imagenes a un solo file en forma textual en este caso el documento textocompleto.txt. Para esto utilizamso la biblioteca llamada pytesseract

Paso 3

  • Bajo desarrollo El documento de Python titulado Frecuenciasdepalabras.py estara utilizando el paquete NLTK y WordCloud para producir un analisis de las palabras no triviales mas comunes en este trabajo de Humboldt.