divvun-checker concatenates potential compound words

Question

divvun-checker concatenates potential compound words

albbas opened this issue 2 years ago · 6 comments

❯ echo "soađi áigi..." | divvun-checker -a tools/grammarcheckers/se.zcheck 
{"errs":[],"text":"soađiáigi..."}

Answer 1 · 2022-10-28T19:06:01.000Z

Also without the ...:

$ echo "soađi áigi" | divvun-checker -l se
{"errs":[],"text":"soađiáigi"}

The error appears already on the first step of the pipeline, the form tags are missing the space:

"<soađi áigi>"
	"soađiáigi" N Sem/Time Sg Nom Err/SpaceCmp <W:0.0>
	"áigi" Po <W:0.0> "<áigi>"
		"soahti" N Sem/Event Sg Gen <W:0.0> "<soađi>"
	"áigi" Po <W:0.0> "<áigi>"
		"soahti" N Sem/Event Sg Acc <W:0.0> "<soađi>"
	"áigi" N Sem/Time Sg Nom <W:0.0> "<áigi>"
		"soahti" N Sem/Event Sg Gen <W:0.0> "<soađi>"
	"áigi" N Sem/Time Sg Nom <W:0.0> "<áigi>"
		"soahti" N Sem/Event Sg Acc <W:0.0> "<soađi>"
	"áigi" Adv <W:0.0> "<áigi>"
		"soahti" N Sem/Event Sg Gen <W:0.0> "<soađi>"
	"áigi" Adv <W:0.0> "<áigi>"
		"soahti" N Sem/Event Sg Acc <W:0.0> "<soađi>"
:\n

(should be either "< áigi>" or "<soađi >")

Answer 2 · 2022-10-28T19:13:35.000Z

@snomos tidlegare hadde me iallfall slike analysar, med mellomrommet i ordform-taggen:

 "<sámelága giellanjuolggadusaid gustot>"
         "gustot" V IV Ind Prs Pl1 <W:0> "<gustot>"
                 "giellanjuolggadus" N Sem/Rule Err/Orth Cmp/PlGen <W:0> "<giellanjuolggadusaid >"
                         "sámeláhka" N Sem/Rule Cmp/SgGen <W:0> "<sámelága >"

men har det blitt endra (med vilje) til ein annan måte å representera mellomrom?

Answer 3 · 2022-10-28T23:07:32.000Z

Ikkje det eg veit, men vi har prata litt om å flytta mellomrommet (etter mwe-dis) til der det står elles (dersom vi vil ta vare på mellomrommet), dvs som:

der mellomrommet står etter :. Men det skal altså skje i resegmenteringa, og sjølvsagt berre der ein kohort blir endra til to.

Answer 4 · 2022-10-29T08:14:17.000Z

Problemet her er at mellomrommet er borte allereie i første steget; det ser ut som det er ein bug i lexc eller fsten

Answer 5 · 2022-10-29T11:08:09.000Z

@snomos tidlegare hadde me iallfall slike analysar, med mellomrommet i ordform-taggen:
 "<sámelága giellanjuolggadusaid gustot>"
         "gustot" V IV Ind Prs Pl1 <W:0> "<gustot>"
                 "giellanjuolggadus" N Sem/Rule Err/Orth Cmp/PlGen <W:0> "<giellanjuolggadusaid >"
                         "sámeláhka" N Sem/Rule Cmp/SgGen <W:0> "<sámelága >"
men har det blitt endra (med vilje) til ein annan måte å representera mellomrom?

det kan ha skjedd når ä jobbade med å få slik surface former til i tts pipeline, denne med space inni hadde sånn masse corner cases i koden ä ryddet opp en bit

Answer 6 · 2022-11-01T10:10:07.000Z

Lukker denne feilen, siden den egentlig hører til under giellalt/lang-sme