pdf downsampling fügt Leerzeichen ein in OCR-Layer
Opened this issue · 0 comments
Für bessere Texterkennung werden die einzelnen Bilder hochskaliert. Die finalen pdfs werden dadurch aber sehr groß, weshalb sie wieder runterskaliert werden sollen.
gs -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/screen -dNOPAUSE -dBATCH -dQUIET -sOutputFile=output.pdf input.pdf
Dieser Befehl skaliert die pdfs wieder zu 72dpi und behält auch den Textlayer bei, allerdings sind zwischen den Buchstaben zusätzliche Leerzeichen eingefügt worden, was man sieht wenn man den Text kopiert.
Aus
Die beiden Künstler des Oberbauamtes,
wird
D i e b e i d e n K ü n s t l e r d e s O b e r b a u a m t e s ,
Außerdem liegt die Markierung im pdf nicht mehr genau auf dem Text.
Indizierung mit Swish-e sollte demnach auch nicht mehr klappen.