/Atlas-de-Datos

Catálogo sobre colecciones digitales y corpus de textos y documentos.

Atlas de Datos

Atlas de Datos es un catálogo sobre colecciones digitales y corpus de textos y documentos en español. Los datos están aquí: https://github.com/morethanbooks/atlas-de-datos/blob/master/atlas%20de%20datos.csv

Debido a la situación de digitalización del español, incluyo casi cualquier tipo de formato digital: PDF, imágenes, web, eBooks, XML, markup vario o TEI. Me he centrado principalmente en colecciones de textos literarios o colecciones que no encajan en la lingüística de corpus. Para saber más sobre corpus lingüísticos en español recomiendo Infoling: http://infoling.org/search/recursos/search.php

Hasta ahora Atlas de Datos da acceso a los datos mediante una tabla CSV en la que cada proyecto es una fila y los campos de descripciones son columnas. Es posible que en el futuro se dé acceso de otras maneras, aunque la principal tarea será la recolección de nuevos recursos.

Aportaciones o modificaciones

Si quieres aportar nuevas fuentes o modificaciones a las actuales, puedes crear un Issue en GitHub. Me encantaría contar con colaboradores recurrentes, en cuyo caso podría dar acceso para editar el repositorio.

Agradezco a Carlos Fernández y a Antonio Rojas Castro que me hayan enviado varias fuentes que me eran desconocidas.

Proyectos similares

Desde luego no he sido el primero al que se la ha ocurrido listar y observar críticamente los rasgos de proyectos de digitalización, aunque hasta ahora no conocía ningún proyecto que recogiese fuentes de textos y datos literarios de manera sistemática para el español. Algunos proyectos interesantes que me han servido de inspiración y complementan en otras áreas, lenguas o con otras metodologías Atlas de Datos son (señalando solo uno de sus principales autores):

Manera de citar:

Si este recurso te parece interesante y te descubre fuentes de textos con las que investigar, puedes citarlo con los siguientes datos: