Неправильные связи composed_of
Zebradil opened this issue · 0 comments
Для версии ruwordnet мы создавали файл composed_of, который описывает связи словосочетания со значениями слов-компонентов.
Для этого мы прослеживали пути между понятием словосочетания и понятиеми слов-компонентов. Если путь найден, то мы считали, что связь есть.
Например,
ИЗОБРАЖЕНИЕ В ПЕРСПЕКТИВЕ :
ИЗОБРАЖЕНИЕ - hypernym
ПЕРСПЕКТИВА - synset
Проблема в том, что и слова изображение
и перспектива
— неоднозначные.
И по путям мы приходим к одним значениям, а в окончательный файл вносятся другие значения (возможно, случайные).
В окончательном файле все выглядит так. И все эти идентификаторы текстового входа, и синсета, они не правильные, относятся не к тем значениям.
<sense name="ИЗОБРАЖЕНИЕ В ПЕРСПЕКТИВЕ" id="102748" synset_id="N34727">
<composed_of>
<sense name="ИЗОБРАЖЕНИЕ" id="115436" synset_id="N26629"/>
<sense name="ПЕРСПЕКТИВА" id="16083" synset_id="N16181"/>
</composed_of>
</sense>
Решение: при построении путей (как все и было) просто запоминать номера, которые позволят идентифицировать правильные значения.