PDF To Text using OCR Tesseract

Build

Create a directory called data and upload pdf into the data directory

$ mkdir -p data

Build Docker Image

$ docker build -t ocr_tesseract .

Run Docker Container from Docker Image

$ docker run -it -v `pwd`:/app/ ocr_tesseract:latest bash

Run script example

root@594df0d77c5e:/app# python main.py --data_directory data/ --pdf_file <pdf_file> --output_file <output_text_file>