Trabajo práctico final del Curso de Python de la UTN-FRA.
Docente: lucas.bais@gmail.com
Descripción: Scraper de abstracts del motor de búsqueda de artículos científicos PubMed. Incluye un proceso básico de data minning y data visualization usando nltk y regular expressions(RE).
Versión de python: Python 2.7.10
Modo de instalación:
-
Ejecutar desde una terminal estando en el directorio adecuado
pip install -r requirements.txt
-
Instalar los datos que requiere nltk para funcionar: Se debe ejectutar desde una terminal estando en el directorio adecuado
python nltk_download_data.py
, esperar a que se abra una ventana emergente, seleccionar all package y darle download. Más información entrando a Installing NLTK Data. -
Ejecutar desde una terminal estando en el directorio adecuado "python scraper.py descargar 'cantidad de papers' 'partes en la que se dividirá la descarga' " donde ambos son números enteros. Ejemplo
python scraper.py descargar 100 10
descargará 100 abstracts en 10 partes, cada archivo se llamará 'abstract_#.txt', con # = numero de abstract. Se recomienda no generar partes de más de 100 abstracts. -
Ejecutar desde una terminal estando en el directorio adecuado
python scraper.py limpiar.py
. Este script pre procesa el texto (borra usando la librería re, caracteres que se repiten o son menos informativos (es modificable)) y genera un archivo "Todos_los_abstracts.txt" -
Ejecutar desde una terminal estando en el directorio adecuado
python nltk_tokenization.py
y seguir las instrucciones para obtener gráficos de dispersión o de frecuencia de palabras. La propia biblioteca nltk implementa matplotlib para hacer los gráficos. -
Ejecutar desde una terminal estando en el directorio adecuado
python scraper.py borrar
para borrar todos los abstracts y poder comenzar de nuevo desde cero.