Un scrapper para las encuestas docentes de la facultad de Exactas de la UBA. El objetivo es producir un CSV con las materias dictadas en un cuatrimestre, y las respuestas de los alumnos a las preguntas de la encuesta.
La lista de preguntas se encuentra en el archivo preguntas.json
. En el dataset se numeran de p0 a p15.
Para instalar en Ubuntu o Debian, simplemente correr el script install.sh
con permisos de root.
Viendo la página de la encuestas, las respuesta vienen en formato imagen, como en este ejemplo. Por lo tanto, el scrapeo se divide en dos partes: la descarga de las imágenes de las encuestas, y el reconocimiento de las mismas. Lamentablemente, el reconocimiento de las imágenes no es perfecto, por lo que es necesario revisar los resultados manualmente.
La pipeline es así:
listar_materias.py
va a la página principal y obtiene un listado de todas las materias. Se guardan en un archivomaterias.json
.scrap.py
baja la metadata y las imágenes de las materias listadas. Las imágenes se guardan en una carpetarespuestas
, y la data enencuestas.csv
.transcribir.py
corre el OCR sobre las imágenes, y guarda los resultados entranscripciones.csv
.juntar.py
junta los resultados deencuestas.csv
ytranscripciones.csv
en un solo archivodataset.csv
.
- Reconocer las imagenes descargas con OCR
- Sacar el overkill que es el OCR
- Juntar toda la pipeline en un solo script