/unam_scraper

Primary LanguageJupyter Notebook

Un conjunto de código que escribí para bajar la información de las más de 500,000 tesis en el repositorio público de la UNAM. Asimismo, hay código para bajar los PDF's y extraer la información textual dentro de ellos. Los datos procesados se pueden encontrar en el repositorio en el archivo data/asesores_final.csv y los puedes bajar picando este vínculo. El resto de los datos, crudos e intermedios, se encuentran en el repositorio complementario pujaltes/unam_scraper_data.

A set of code to download and analyze the metadata of the over 500,000 thesis in the National Autonomous University of Mexico's thesis repository. Scripts to download and scrape the textual data from each corresponding PDF are also included. However, we have not run these due to computational constraints.