robot-lab/judyst-web-crawler

Добавление главного атрибута supertype в заголовки при их сборке в web_crawler

navolotsky opened this issue · 0 comments

Task request

Цель задачи

Необходимо будет добавить еще один главный атрибут: надтип (supertype). Примеры значений: КСРФ для решений Конституционного суда, НКРФ для налогового кодекса и т.п. Потребуется для поиска ссылок на определенные надтипы в базе (смотрите задачу 2 в ТЗ, цитата: "указать общее количество совместного применения ГК и НК"), обработки документа в соответствии с заданным надтипом в link_analysis.

Решение задачи

В веб-краулере сейчас реализован только парсинг ksrf, поэтому для решения задачи пока что достаточно записывать префикс ID решения в словарь заголовка с ключом 'supertype'.

Дополнительный контекст или ссылки на связанные с данной задачей issues

#9