Brakebein/DokuVis

pdf downsampling fügt Leerzeichen ein in OCR-Layer

Opened this issue · 0 comments

Für bessere Texterkennung werden die einzelnen Bilder hochskaliert. Die finalen pdfs werden dadurch aber sehr groß, weshalb sie wieder runterskaliert werden sollen.

gs -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/screen -dNOPAUSE -dBATCH -dQUIET -sOutputFile=output.pdf input.pdf

Dieser Befehl skaliert die pdfs wieder zu 72dpi und behält auch den Textlayer bei, allerdings sind zwischen den Buchstaben zusätzliche Leerzeichen eingefügt worden, was man sieht wenn man den Text kopiert.
Aus
Die beiden Künstler des Oberbauamtes,
wird
D i e b e i d e n K ü n s t l e r d e s O b e r b a u a m t e s ,

Außerdem liegt die Markierung im pdf nicht mehr genau auf dem Text.
Indizierung mit Swish-e sollte demnach auch nicht mehr klappen.