/jmpdf

Primary LanguageJupyter Notebook

jmpdf

Для парсинга таблиц используется tabula-py, которому требуется java 8.x+. Перед установкой зависимостей првоерить jvm через java -version. Для разбора pdf в текст используется pymupdf.

Зависимости в requirements.txt ставить в виртуальное окружение так:

virtualenv -p python venv

# активировать venv

pip install -r requirements.txt

Разбор пдфки ведется в /src. Необходимо добавить файл спецификации в data/example.pdf. Основоной инструмент - jupyter notebooks.