Extractor de Metadatos de Facturas OCR

El siguiente código permite extraer los metadatos de una factura escaneada y almacenada en formato .pdf, por ejemplo:

INVOICE	DATE	TOTAL DUE
1989	09/12/2005	1.596.097

La ejecución se inicia con un pre-procesamiento con ImageMagick, luego, se convierten los caracteres a texto plano con pytesseract y se utilizan regex para extraer los metadatos; finalmente el resultado queda en formato json.

Para utilizarlo se deben instalar las siguientes dependencias:

Instalar ImageMagick en Red Hat 4.8.5-16.0.3

sudo yum -y update 
sudo yum -y install ImageMagick-devel

Para la instalación en otras distribuciones, por favor revisa la documentación oficial.

Instalar Tesseract en Red Hat RHEL 7

sudo rpm -ivh https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm
sudo subscription-manager repos --enable "rhel-*-optional-rpms" --enable "rhel-*-extras-rpms"
sudo yum -y update
sudo yum -y install snapd
sudo systemctl enable --now snapd.socket
sudo ln -s /var/lib/snapd/snap /snap
sudo /usr/bin/yum --enablerepo epel-testing -y install tesseract.x86_64 tesseract-langpack-fra.noarch

Version Alternativa

sudo yum install install poppler-utils

Librerías python

Este código fué probado con python3.6 y requiere instalar los siguientes paquetes:

pip install -r requeriments.txt

pavelsjo/ocr-invoce-metadata

Extractor de Metadatos de Facturas OCR

Instalar ImageMagick en Red Hat 4.8.5-16.0.3

Instalar Tesseract en Red Hat RHEL 7

Version Alternativa

Librerías python

Referencias