/boe-transparente

Enlaces a documentos ocultos del BOE

Primary LanguageRuby

BOE Transparente

Generador de enlaces a documentos públicos pertenecientes al Boletín Oficial del Estado (BOE) y no indexados por los robots de búsqueda

screenshot

Motivación

Cómo se usa

Ejecuta en un terminal

bundle install && bundle exec ruby generate.rb

Tarda un poco, porque http://www.boe.es/robots.txt tiene más de 8000 entradas.

El fichero index.html contendrá la página web con los enlaces.

Características

  • Se puede ejecutar periódicamente, y comprobará si el contenido de robots.txt ha cambiado. Sólo en ese caso regenerará el fichero index.html
  • Algunos de los enlaces de robots.txt corresponden a búsquedas que alcanzan otros de los documentos ocultos. Estos enlaces son filtrados por el script. También se han filtrado enlaces duplicados (que apuntan al mismo contenido desde diferentes URLs)

TO-DO

  • Extracción de títulos de los documentos
  • Presentación de distintos tipos de enlaces (xml, texto, pdfs) de manera más específica
  • Mejora de estilos

Contribuye