El siguiente código permite extraer los metadatos de una factura escaneada
y almacenada en formato .pdf
, por ejemplo:
INVOICE | DATE | TOTAL DUE |
---|---|---|
1989 | 09/12/2005 | 1.596.097 |
La ejecución se inicia con un pre-procesamiento con ImageMagick
, luego, se convierten los caracteres a texto plano con pytesseract
y se utilizan regex
para extraer los metadatos; finalmente el resultado queda en formato json.
Para utilizarlo se deben instalar las siguientes dependencias:
sudo yum -y update
sudo yum -y install ImageMagick-devel
Para la instalación en otras distribuciones, por favor revisa la documentación oficial.
sudo rpm -ivh https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm
sudo subscription-manager repos --enable "rhel-*-optional-rpms" --enable "rhel-*-extras-rpms"
sudo yum -y update
sudo yum -y install snapd
sudo systemctl enable --now snapd.socket
sudo ln -s /var/lib/snapd/snap /snap
sudo /usr/bin/yum --enablerepo epel-testing -y install tesseract.x86_64 tesseract-langpack-fra.noarch
sudo yum install install poppler-utils
Este código fué probado con python3.6
y requiere instalar los siguientes paquetes:
pip install -r requeriments.txt