Anotētu sīkziņu korpuss un apstrādes skripti:
- Jēls sīkziņu korpuss failā viksna.json,
- tab-atdalīts korpuss failā viksna.tsv
Sīkziņu apstrādei izmantotie ārējie rīki:
-
https://github.com/PeterisP/LVTagger - pamatformu iegūšanai
-
https://pypi.org/project/LatvianStemmer/1.0.1/#files - celmošanai
-
https://bitbucket.org/Ginta/ruukjiishi - darbā netika izmantots, tomēr tika aizgūta liela daļa likumu, kas lietoti burtu aizvietošanai (aa=>ā, ch=>č u.t.t)
-
https://github.com/FnTm/latvian-tweet-sentiment-corpus - testa datu kopas iegūšanai