(conceived as a tool to extract tokens from Kalevipoeg: https://et.wikisource.org/wiki/Kalevipoeg)
Usage:
tokenize.py kalevipoeg > tokenized
This will produce information akin to:
kalevipoeg\Kalevipoeg_I.txt 0 22 0 0 Sõua sõua
kalevipoeg\Kalevipoeg_I.txt 0 22 6 1 laulik laulik
kalevipoeg\Kalevipoeg_I.txt 0 22 14 2 lausa lausa
kalevipoeg\Kalevipoeg_I.txt 0 22 20 3 suuga suuga
kalevipoeg\Kalevipoeg_I.txt 0 24 0 0 Sõua sõua
kalevipoeg\Kalevipoeg_I.txt 0 24 5 1 laululaevakesta laululaevakesta
kalevipoeg\Kalevipoeg_I.txt 0 26 0 0 Pajataja pajataja
kalevipoeg\Kalevipoeg_I.txt 0 26 9 1 paadikesta paadikesta
kalevipoeg\Kalevipoeg_I.txt 0 28 0 0 Sõua sõua
kalevipoeg\Kalevipoeg_I.txt 0 28 5 1 neid neid
kalevipoeg\Kalevipoeg_I.txt 0 28 10 2 senna senna
kalevipoeg\Kalevipoeg_I.txt 0 28 16 3 kaldale kaldale
where columns are:
- filename
- Sentence number (globally) (for this to make sense, files need to be ordered alphabetically in the folder)
- Line number (in file)
- Token starting position in line
- Token number in line
- Token "as is"
- Token in lower-case