robot-lab/judyst-web-crawler

Модифицировать алгоритм обработки пользовательских запросов

navolotsky opened this issue · 1 comments

Feature request

В текущей реализации при поиске цитирующих и цитируемых документов в базе используется поле doc_id. Для решения второй задачи ТЗ — анализа совместного применения положений кодексов — требуется изменить данное поведение.

В силу специфики положений кодексов (множество редакций одного и того же положения, имеющие, естественно, отдельный doc_id), введено поле, их связывающее — interredaction_id.
Именно оно идентифицирует конкретное положение кодекса, а не doc_id, которое идентифицирует только конкретную редакцию положения.

Функционал, который Вы хотите

Пользователь задает в поиске на языке запросов что-то вида:

  • -> КОАПРФ/СТ-15.3 & ГКРФ/СТ-6.2 & НКРФ/СТ-2

после чего в таблице БД ищутся эти строки в поле interredaction_id. Получится три группы записей, для заданных пользователем запросов. В этих группах берем doc_id. Ищем их в таблице ссылок по полю doc_id_to. Получаем список doc_id_from. Итоговым результатом будут те doc_id_from, для которых есть doc_id_to из всех трех групп. Т.е. doc_id_from — это все документы ссылающиеся на все три заданные положения кодексов (в любых редакциях) одновременно. Получим базовую основу для анализа совместного применения положений кодексов.

Стоит также оставить возможность поиска только конкретной редакции (вдруг у пользователя будет такая задача).

Как Вы будете использовать этот функционал

Пользователь сможет получать выдачу информации о совместном примении положений кодексов, а не только конкретных их редакций (что было бы довольно бесполезно в силу того, что большинство положений от редакции к редакции не меняются вообще).

не тот репозиторий