divvun/libdivvun

divvun-checker concatenates potential compound words

albbas opened this issue · 6 comments

echo "soađi áigi..." | divvun-checker -a tools/grammarcheckers/se.zcheck 
{"errs":[],"text":"soađiáigi..."}

Also without the ...:

$ echo "soađi áigi" | divvun-checker -l se
{"errs":[],"text":"soađiáigi"}

The error appears already on the first step of the pipeline, the form tags are missing the space:

"<soađi áigi>"
	"soađiáigi" N Sem/Time Sg Nom Err/SpaceCmp <W:0.0>
	"áigi" Po <W:0.0> "<áigi>"
		"soahti" N Sem/Event Sg Gen <W:0.0> "<soađi>"
	"áigi" Po <W:0.0> "<áigi>"
		"soahti" N Sem/Event Sg Acc <W:0.0> "<soađi>"
	"áigi" N Sem/Time Sg Nom <W:0.0> "<áigi>"
		"soahti" N Sem/Event Sg Gen <W:0.0> "<soađi>"
	"áigi" N Sem/Time Sg Nom <W:0.0> "<áigi>"
		"soahti" N Sem/Event Sg Acc <W:0.0> "<soađi>"
	"áigi" Adv <W:0.0> "<áigi>"
		"soahti" N Sem/Event Sg Gen <W:0.0> "<soađi>"
	"áigi" Adv <W:0.0> "<áigi>"
		"soahti" N Sem/Event Sg Acc <W:0.0> "<soađi>"
:\n

(should be either "< áigi>" or "<soađi >")

@snomos tidlegare hadde me iallfall slike analysar, med mellomrommet i ordform-taggen:

 "<sámelága giellanjuolggadusaid gustot>"
         "gustot" V IV Ind Prs Pl1 <W:0> "<gustot>"
                 "giellanjuolggadus" N Sem/Rule Err/Orth Cmp/PlGen <W:0> "<giellanjuolggadusaid >"
                         "sámeláhka" N Sem/Rule Cmp/SgGen <W:0> "<sámelága >"

men har det blitt endra (med vilje) til ein annan måte å representera mellomrom?

Ikkje det eg veit, men vi har prata litt om å flytta mellomrommet (etter mwe-dis) til der det står elles (dersom vi vil ta vare på mellomrommet), dvs som:

: 

der mellomrommet står etter :. Men det skal altså skje i resegmenteringa, og sjølvsagt berre der ein kohort blir endra til to.

Problemet her er at mellomrommet er borte allereie i første steget; det ser ut som det er ein bug i lexc eller fsten

@snomos tidlegare hadde me iallfall slike analysar, med mellomrommet i ordform-taggen:

 "<sámelága giellanjuolggadusaid gustot>"
         "gustot" V IV Ind Prs Pl1 <W:0> "<gustot>"
                 "giellanjuolggadus" N Sem/Rule Err/Orth Cmp/PlGen <W:0> "<giellanjuolggadusaid >"
                         "sámeláhka" N Sem/Rule Cmp/SgGen <W:0> "<sámelága >"

men har det blitt endra (med vilje) til ein annan måte å representera mellomrom?

det kan ha skjedd når ä jobbade med å få slik surface former til i tts pipeline, denne med space inni hadde sånn masse corner cases i koden ä ryddet opp en bit

Lukker denne feilen, siden den egentlig hører til under giellalt/lang-sme