ufal/treex

non-determinism in A2T::CS::MarkTextPronCoref

Closed this issue · 0 comments

Bug description from @martinpopel's email.

Ahoj Michale,
tak jsem se podíval na ten nedeterminismus a přijde mi, že to přece jen bude mít
na svědomí tvůj kód.

ttred cs-en/batch2q/runs/$ANY/treexfiles/0011.streex##15

Rozdíl je v tom, že ve větě
"Mám notebook zapojený, ale říká mi to, že [#PersPron] funguje na baterie."
někdy ten generovaný perspron má $tnode->wild->{referential} = 1 a někdy 0.
Podle mě za to může blok A2T::CS::MarkTextPronCoref, kde jsi jako autor uveden
ty.

Zaujaly mě na této větě dvě věci (které se týkají koreference v MT a mohly by tě
zajímat):

V "říká mi to, že" zde se "to" správně určí jako podmět na t-rovině,
ale pak se to schová na t-rovině,
nejspíš kvůli A2T::CS::MarkEdgesToCollapse expletives=1.
Možná bys mohl (s Ondrou Duškem, autorem toho kódu)
vylepšit detekci expletiv a zamezit těmto false positives.

ACT pod "říká" je tedy generovaný #PersPron,
na který odkazuje koreferenční šipka z ACToru pod "funguje",
tedy v těch případech, kdy se označí jako referential=1.
Tato šipka se objeví i v přeloženém anglickém t-stromě.
Jenže horní ACTor má gender=nr a dolní gender=anim.
Nechybí nám blok, který by (v angličtině) zajistil stejný gender
v celém coref chain?

Martin