/scrappy

Scraper pdf with language recognition

Primary LanguageJavaGNU General Public License v3.0GPL-3.0

scrappy: pdf scraper

Status

Build Status

Il suo obiettivo è estrae metadati e testo da un pdf dato in ingresso e di salvare il tutto in una cartella di destinazione.

Riconosce anche il linguaggio usato nella pagina e lo inserisce come metadato.