/gpzuparse

Parser of GPZU (Urban development plan of land parcel) for Leaders of Digital Transformation 2022

Primary LanguagePython

Парсер ГПЗУ

Парсер ГПЗУ (градостроительного плана земельного участка), разработанный на «Лидерах цифровой трансформации — 2022» командой GPZU_leaders.

Как запустить

  1. Установить Docker.
  2. Скачать файлы из этого репозитория.
  3. Открыть папку, в которую скачали файлы, открыть в ней консоль и выполнить docker build -t gpzuparse . (точка тоже входит в команду). Эта команда собирает Docker-образ, внутри которого работает приложение. Дождаться, пока образ соберётся (время зависит от мощности компьютера и скорости Интернета, так как много информации загружается из Интернета).
  4. Там же выполнить docker run --name gpzu_parser -dp 80:80 gpzuparse. Эта команда запускает только что собранный образ, даёт ему имя gpzu_parser (можно поменять на другое) и привязывает к порту 80 (благодаря этому приложение можно открыть в браузере).
  5. Открыть браузер, набрать localhost в адресной строке и перейти.

Некоторые детали

  1. Приложение написано на Python, так как на этом языке проще работать с текстовыми и табличными данными. Docker-образ собран на базе образа Python 3.10 на Debian.
  2. Основные используемые библиотеки: PyPDF2, tabula-py, pandas, FastAPI, Jinja2, pymorphy2.
  3. У приложения есть веб-интерфейс и API.
  4. Документация API в запущенном веб-приложении доступна по адресу localhost/docs.
  5. В веб-интерфейсе можно загрузить файл и распознать его, после чего скачать результат в json или xlsx. Ранее распознанные файлы сохраняются, и их можно скачать повторно. Можно удалить ранее загруженный файл.
  6. Приложение можно запустить на сервере в локальной сети и использовать с нескольких компьютеров.