Zebradil/RuWordNet

Неправильные связи composed_of

Zebradil opened this issue · 0 comments

Для версии ruwordnet мы создавали файл composed_of, который описывает связи словосочетания со значениями слов-компонентов.

Для этого мы прослеживали пути между понятием словосочетания и понятиеми слов-компонентов. Если путь найден, то мы считали, что связь есть.

Например,
ИЗОБРАЖЕНИЕ В ПЕРСПЕКТИВЕ :
ИЗОБРАЖЕНИЕ - hypernym
ПЕРСПЕКТИВА - synset

Проблема в том, что и слова изображение и перспектива — неоднозначные.
И по путям мы приходим к одним значениям, а в окончательный файл вносятся другие значения (возможно, случайные).

В окончательном файле все выглядит так. И все эти идентификаторы текстового входа, и синсета, они не правильные, относятся не к тем значениям.

  <sense name="ИЗОБРАЖЕНИЕ В ПЕРСПЕКТИВЕ" id="102748" synset_id="N34727">
    <composed_of>
      <sense name="ИЗОБРАЖЕНИЕ" id="115436" synset_id="N26629"/>
      <sense name="ПЕРСПЕКТИВА" id="16083" synset_id="N16181"/>
    </composed_of>
  </sense>

Решение: при построении путей (как все и было) просто запоминать номера, которые позволят идентифицировать правильные значения.