/digiteks

Aplikacija za digitalizaciju dokumenata na srpskom jeziku

Primary LanguagePythonGNU General Public License v3.0GPL-3.0

ДигиТекс је вишеплатформна апликација за дигитализацију докумената на српском језику, заснована на оптичком препознавању карактера (и језичким моделима*).

Документ који је предмет дигитализације се најпре трансформише у слику помоћу Поплера, док је за препознавање текста на слици задужен Гугл Тесеракт. (Коначно, текст се обрађује језичким моделом за српски језик, јертех355, што омогућава прецизније одређивање вероватноће сваке речи у контексту, као и аутоматско исправљање лоше рашчитаног текста.*)

Дигитекс се може покретати као Фласк веб апликација на рачунарима са Виндоус и Виндоус сервер оперативним системима, за шта је неопходно инсталирати Пајтон 3.12, или се може скинути и покренути компајлована верзија која у себи садржи неопходан софтвер.

Покретање апликације

Виндоус апликација

Скините прекомпајловану апликацију доступну на Гитхаб репозиторијуму софтвера и покрените програм на вашем рачунару.

Виндоус (командна линија, припремљено виртуелно окружење)

  1. Преузмите апликацију у целости и сачувајте је на вашем рачунару.

  2. Инсталирајте Пајтон интерпретер (препоручена верзија 3.12)

  3. У командној линији подесите радно окружење на директоријум у којем је похрањен преузети софтвер

cd ./direktorijum/digiteks/softvera
  1. Покрените припремљено виртуелно окружење
.\venv\Scripts\activate
  1. Покрените апликацију
python main.py

Виндоус (командна линија, ваше Пајтон окружење)

  1. Преузмите апликацију у целости и сачувајте је на вашем рачунару.

  2. Инсталирајте Пајтон интерпретер (препоручена верзија 3.12)

  3. У командној линији подесите радно окружење на директоријум у којем је похрањен преузети софтвер

cd ./direktorijum/digiteks/softvera
  1. Инсталиратје неопходне Пајтон пакете
pip install -r requirements.txt
  1. Преузмите инсталацију пакета tesserocr за вашу верзију Пајтон интерпретера на овој адреси

  2. Инсталирајте преузети пакет (tesserocr)

pip install <путања/преузетог/пакета/име>.whl
  1. Покрените апликацију
python main.py

Linux (командна линија, ваше Пајтон окружење)

  1. Преузмите апликацију у целости и сачувајте је на вашем рачунару.

  2. Инсталирајте Пајтон интерпретер (препоручена верзија 3.12)

  3. У командној линији подесите радно окружење на директоријум у којем је похрањен преузети софтвер

cd ./direktorijum/digiteks/softvera
  1. Инсталиратје неопходне Пајтон пакете
pip install -r requirements.txt
  1. Инсталирајте Tesseract
sudo apt-get install tesseract-ocr libtesseract-dev libleptonica-dev pkg-config
  1. Инсталирајте Poppler
sudo apt-get install -y poppler-utils
  1. Инсталирајте пакет (tesserocr)
pip install tesserocr
  1. Покрените апликацију
python main.py

apache веб апликација (Linux пример)

  1. Преузмите апликацију у целости и сачувајте је на вашем рачунару (нпр. у директоријуму var/www/digiteks).

  2. Инсталирајте Пајтон интерпретер (препоручена верзија 3.12)

  3. У командној линији подесите радно окружење на директоријум у којем је похрањен преузети софтвер

cd ./direktorijum/digiteks/softvera
  1. Инсталиратје неопходне Пајтон пакете
sudo -H pip3 install -r requirements.txt
  1. Инсталирајте Tesseract
sudo apt-get install tesseract-ocr libtesseract-dev libleptonica-dev pkg-config ffmpeg libsm6 libxext6
  1. Инсталирајте Poppler
sudo apt-get install -y poppler-utils
  1. Инсталирајте пакет (tesserocr)
sudo -H pip3 install tesserocr
  1. Инсталација и подешавање apache веб сервера
sudo apt install apache2
apache2 -v
sudo apt-get install libapache2-mod-wsgi-py3
sudo a2enmod rewrite
sudo a2enmod wsgi
sudo nano /etc/apache2/sites-available/digiteks.conf

У конфигурациону датотеку упишите:

<VirtualHost *:5001>

WSGIDaemonProcess digiteks user=www-data group=www-data threads=5
        WSGIScriptAlias / /var/www/digiteks/digiteks.wsgi

        <Directory /var/www/digiteks>
                WSGIProcessGroup digiteks
                WSGIApplicationGroup %{GLOBAL}
                Order deny,allow
                Allow from 127.0.0.1 ::1/128 <ADRESA SERVERA>
        </Directory>
</VirtualHost>

sudo nano /etc/apache2/ports.conf

Listen 5001

Урадите неопходно ажурирање и рестарт сервиса

sudo a2ensite digiteks
sudo service apache2 restart

и апликација ће бити покренута и доступна на порту 5001

Предстојећи кораци:

  1. Припремање прекомпајловане апликације за Linux оперативне системе;

  2. Припрема детаљнијег упутства за употребу;

  3. Имплементација адекватних језичких модела путем библиотеке трансформерс.

Напомене

Развој апликације, у сарадњи са ЈП Службени Гласник, омогућио је програм Говтех, који финансира Фонд за иновациону делатност Републике Србије.

*Функционланости још увек нису имплементиране.