LanguageMachines/frog

Opschonen foutieve lemmas in mblem.lex traingsdata

kosloot opened this issue · 0 comments

In mblem.lex staan erg veel verdachte lemma's
Bijvoorbeeld wezen voor het WW zijn:

1 wezen wees N(soort,mv,basis)
2 wezen wezen N(soort,ev,basis,onz,stan)
3 wezen wezen WW(inf,nom,zonder,zonder-n)
4 wezen wezen WW(inf,prenom,zonder)
5 wezen wezen WW(inf,vrij,zonder)
6 wezen wezen WW(pv,tgw,mv)
7 wezen wijzen WW(pv,verl,mv)
8 wezen zijn WW(inf,nom,zonder,zonder-n)
9 wezen zijn WW(inf,vrij,zonder)

3,4,5 en 6 lijken me allemaal fout.
De lemma's zijn volgens mij 'wees' voor N (1 en 2) of 'zijn' (8 en 9) of 'wijzen' (7)

Ook voor allerlei andere vormen van 'wezen' gaat dit mis, lijkt me:

wezend	wezen	WW(od,prenom,zonder)
wezend	wezen	WW(od,vrij,zonder)
wezende	wezen	WW(od,nom,met-e,zonder-n)
wezende	wezen	WW(od,prenom,met-e)

Pijnlijk is dat hier de vormen met 'zijn' geheel niet voorkomen.

Ik denk dat we de data moeten opschonen. relatief simpel in dit geval.
Maar ook aanvullen, wat meer tricky is.

suggesties welkom