Sequence-to-sequence Domain adaptation

for robust text image recognition

Prerequsites

tensorflow-gpu == 1.10.0 python 3.6.3 python Besides, we use python package distance to calculate edit distance for evaluation.

wget http://www.cs.cmu.edu/~yuntiand/Distance-0.1.3.tar.gz

tar zxf Distance-0.1.3.tar.gz

cd distance; sudo python setup.py install

For a toy sample, we can download the following datasets.

wget http://www.cs.cmu.edu/~yuntiand/sample.tgz

tar zxf sample.tgz

wget http://www.cs.cmu.edu/~yuntiand/evaluation_data.tgz

tar zxf evaluation_data.tgz

(0) Preparing dataset

-Suppose DATA_HOME=/home/data/OCR

  python gen_tfrecord.py

(1) Pretraining a source model

   python main_baseline.py --phase='train'

(2) Training a domain adaptation model

   python main.py --phase='train'

vi defaults_dataset.py

vi defaults.py