DocParser: A Jupyter Notebook repository from dmdin

📖 О проекте

Платформа парсинга документов предназначена для автоматизации рутинной работы по распределению документов от частной комании. Позволяет определять типы в системе документооборота, регистрировать их в карточках и распределять до конечных точек.

⚙️ Текущий функционал платформы

Поддержка нескольких форматов документов
Адаптивный конвеер данных, под разные типы
Исправление ошибок и опечаток
Удаление шума и артефактов при помощи BERT
Вычисление расстояний до целевых классов
Регистрация документов в банковской системе
Поиск и просмотр статистики по компаниям
Автоматическое формирование отчетов

🚀 Запуск вручную

Установите библиотеку ocrmypdf. Инструкция по установке. Выполните следующие команды в терминале. Необходимы Python 3.8 и NodeJS 14

$: cd frontend
$: npm install
$: npm run build
$: cd ..
$: pip install -r requirements.txt
$: python app.py

🐳 Запуск с помощью Docker

Соберите образ и запустите контейнер

$: docker build -t service .
$: docker run -p 8000:8000 service

dmdin/DocParser

📖 О проекте

⚙️ Текущий функционал платформы

🚀 Запуск вручную

🐳 Запуск с помощью Docker