divvun-checker concatenates potential compound words
albbas opened this issue · 6 comments
❯ echo "soađi áigi..." | divvun-checker -a tools/grammarcheckers/se.zcheck
{"errs":[],"text":"soađiáigi..."}
Also without the ...:
$ echo "soađi áigi" | divvun-checker -l se
{"errs":[],"text":"soađiáigi"}
The error appears already on the first step of the pipeline, the form tags are missing the space:
"<soađi áigi>"
"soađiáigi" N Sem/Time Sg Nom Err/SpaceCmp <W:0.0>
"áigi" Po <W:0.0> "<áigi>"
"soahti" N Sem/Event Sg Gen <W:0.0> "<soađi>"
"áigi" Po <W:0.0> "<áigi>"
"soahti" N Sem/Event Sg Acc <W:0.0> "<soađi>"
"áigi" N Sem/Time Sg Nom <W:0.0> "<áigi>"
"soahti" N Sem/Event Sg Gen <W:0.0> "<soađi>"
"áigi" N Sem/Time Sg Nom <W:0.0> "<áigi>"
"soahti" N Sem/Event Sg Acc <W:0.0> "<soađi>"
"áigi" Adv <W:0.0> "<áigi>"
"soahti" N Sem/Event Sg Gen <W:0.0> "<soađi>"
"áigi" Adv <W:0.0> "<áigi>"
"soahti" N Sem/Event Sg Acc <W:0.0> "<soađi>"
:\n
(should be either "< áigi>"
or "<soađi >"
)
@snomos tidlegare hadde me iallfall slike analysar, med mellomrommet i ordform-taggen:
"<sámelága giellanjuolggadusaid gustot>"
"gustot" V IV Ind Prs Pl1 <W:0> "<gustot>"
"giellanjuolggadus" N Sem/Rule Err/Orth Cmp/PlGen <W:0> "<giellanjuolggadusaid >"
"sámeláhka" N Sem/Rule Cmp/SgGen <W:0> "<sámelága >"
men har det blitt endra (med vilje) til ein annan måte å representera mellomrom?
Ikkje det eg veit, men vi har prata litt om å flytta mellomrommet (etter mwe-dis) til der det står elles (dersom vi vil ta vare på mellomrommet), dvs som:
:
der mellomrommet står etter :
. Men det skal altså skje i resegmenteringa, og sjølvsagt berre der ein kohort blir endra til to.
Problemet her er at mellomrommet er borte allereie i første steget; det ser ut som det er ein bug i lexc eller fsten
@snomos tidlegare hadde me iallfall slike analysar, med mellomrommet i ordform-taggen:
"<sámelága giellanjuolggadusaid gustot>" "gustot" V IV Ind Prs Pl1 <W:0> "<gustot>" "giellanjuolggadus" N Sem/Rule Err/Orth Cmp/PlGen <W:0> "<giellanjuolggadusaid >" "sámeláhka" N Sem/Rule Cmp/SgGen <W:0> "<sámelága >"
men har det blitt endra (med vilje) til ein annan måte å representera mellomrom?
det kan ha skjedd når ä jobbade med å få slik surface former til i tts pipeline, denne med space inni hadde sånn masse corner cases i koden ä ryddet opp en bit
Lukker denne feilen, siden den egentlig hører til under giellalt/lang-sme