/DocParser

📑 The Platform for automatic document analysis

Primary LanguageJupyter Notebook

Баннер

SvelteIcon FastAPIIcon SwaggerIcon DockerIcon

📖 О проекте

Платформа парсинга документов предназначена для автоматизации рутинной работы по распределению документов от частной комании. Позволяет определять типы в системе документооборота, регистрировать их в карточках и распределять до конечных точек.

⚙️ Текущий функционал платформы

  • Поддержка нескольких форматов документов
  • Адаптивный конвеер данных, под разные типы
  • Исправление ошибок и опечаток
  • Удаление шума и артефактов при помощи BERT
  • Вычисление расстояний до целевых классов
  • Регистрация документов в банковской системе
  • Поиск и просмотр статистики по компаниям
  • Автоматическое формирование отчетов

🚀 Запуск вручную

Установите библиотеку ocrmypdf. Инструкция по установке. Выполните следующие команды в терминале. Необходимы Python 3.8 и NodeJS 14

$: cd frontend
$: npm install
$: npm run build
$: cd ..
$: pip install -r requirements.txt
$: python app.py

🐳 Запуск с помощью Docker

Соберите образ и запустите контейнер

$: docker build -t service .
$: docker run -p 8000:8000 service