NDLOCR(ver.2)用の画像中のテキストを認識するモジュールのリポジトリです。
本プログラムは、全文検索用途のテキスト化のために開発したver.1に対して、視覚障害者等の読み上げ用途にも利用できるよう、国立国会図書館が外部委託して追加開発したプログラムです(委託業者:株式会社モルフォAIソリューションズ)。
事業の詳細については、令和4年度NDLOCR追加開発事業及び同事業成果に対する改善作業をご覧ください。
本プログラムは、国立国会図書館がCC BY 4.0ライセンスで公開するものです。詳細については LICENSEをご覧ください。
Install dependencies
# clone project
git clone https://github.com/ndl-lab/text_recognition_lightning
cd text_recognition_lightning
# [OPTIONAL] create conda environment
conda create -n myenv python=3.8.10
conda activate myenv
# install pytorch according to instructions
# https://pytorch.org/get-started/
# install requirements
pip install -r requirements.txt
Train model with default configuration
# train on CPU
python src/train.py trainer=cpu
# train on GPU
python src/train.py trainer=gpu
You can override any parameter from command line like this
python src/train.py trainer.max_epochs=20 datamodule.batch_size=64
# eval
python src/eval.py ckpt_path=logs/your/model/ckpt/path datamodule.dataset.pred=[/your/xml/data/directory1,/your/xml/data/directory2]
# xml
python src/eval.py task=xml ckpt_path=logs/your/model/ckpt/path datamodule.dataset.pred=[/your/xml/data/directory1,/your/xml/data/directory2]
# render(visualize)
python src/eval.py task=render ckpt_path=logs/your/model/ckpt/path datamodule.dataset.pred=[/your/xml/data/directory1,/your/xml/data/directory2]