Opschonen foutieve lemmas in mblem.lex traingsdata
kosloot opened this issue · 0 comments
kosloot commented
In mblem.lex staan erg veel verdachte lemma's
Bijvoorbeeld wezen
voor het WW zijn
:
1 wezen wees N(soort,mv,basis)
2 wezen wezen N(soort,ev,basis,onz,stan)
3 wezen wezen WW(inf,nom,zonder,zonder-n)
4 wezen wezen WW(inf,prenom,zonder)
5 wezen wezen WW(inf,vrij,zonder)
6 wezen wezen WW(pv,tgw,mv)
7 wezen wijzen WW(pv,verl,mv)
8 wezen zijn WW(inf,nom,zonder,zonder-n)
9 wezen zijn WW(inf,vrij,zonder)
3,4,5 en 6 lijken me allemaal fout.
De lemma's zijn volgens mij 'wees' voor N (1 en 2) of 'zijn' (8 en 9) of 'wijzen' (7)
Ook voor allerlei andere vormen van 'wezen' gaat dit mis, lijkt me:
wezend wezen WW(od,prenom,zonder)
wezend wezen WW(od,vrij,zonder)
wezende wezen WW(od,nom,met-e,zonder-n)
wezende wezen WW(od,prenom,met-e)
Pijnlijk is dat hier de vormen met 'zijn' geheel niet voorkomen.
Ik denk dat we de data moeten opschonen. relatief simpel in dit geval.
Maar ook aanvullen, wat meer tricky is.
suggesties welkom