naymaraq/ArmTokenizer

Tokenizer for Armenian Language

Python

ArmTokenizer

Tokenizer for Armenian Language

Usage

#import Tokenizer
>>> from armtok import Tokenizer
>>> line = "Խուզարկությամբ հայտնաբերվեց տնկված 208 հատ, մինչ 4մ բարձրության կանեփի թուփ:"
>>> tokenizer = Tokenizer()
>>> tokenizer.tokenize(line)
>>> tokenizer.tokens()

['Խուզարկությամբ', 'հայտնաբերվեց', 'տնկված', '208', 'հատ', ',', 'մինչ', '4', 'մ', 'բարձրության', 'կանեփի', 'թուփ', ':']

See https://github.com/gorarakelyan/Hy-Tokenizer for more information