Quick tokenizer for Wikisource texts

tokenize.py

(conceived as a tool to extract tokens from Kalevipoeg: https://et.wikisource.org/wiki/Kalevipoeg)

Usage:

tokenize.py kalevipoeg > tokenized

This will produce information akin to:

kalevipoeg\Kalevipoeg_I.txt	0	22	0	0	Sõua	sõua
kalevipoeg\Kalevipoeg_I.txt	0	22	6	1	laulik	laulik
kalevipoeg\Kalevipoeg_I.txt	0	22	14	2	lausa	lausa
kalevipoeg\Kalevipoeg_I.txt	0	22	20	3	suuga	suuga
kalevipoeg\Kalevipoeg_I.txt	0	24	0	0	Sõua	sõua
kalevipoeg\Kalevipoeg_I.txt	0	24	5	1	laululaevakesta	laululaevakesta
kalevipoeg\Kalevipoeg_I.txt	0	26	0	0	Pajataja	pajataja
kalevipoeg\Kalevipoeg_I.txt	0	26	9	1	paadikesta	paadikesta
kalevipoeg\Kalevipoeg_I.txt	0	28	0	0	Sõua	sõua
kalevipoeg\Kalevipoeg_I.txt	0	28	5	1	neid	neid
kalevipoeg\Kalevipoeg_I.txt	0	28	10	2	senna	senna
kalevipoeg\Kalevipoeg_I.txt	0	28	16	3	kaldale	kaldale

where columns are:

filename
Sentence number (globally) (for this to make sense, files need to be ordered alphabetically in the folder)
Line number (in file)
Token starting position in line
Token number in line
Token "as is"
Token in lower-case

62mkv/tokenize-text

Quick tokenizer for Wikisource texts

tokenize.py