Изменение способа работы с дублирующимися заголовками.
navolotsky opened this issue · 0 comments
Task request
Цель задачи
Сейчас дублирующиеся заголовки хранятся в специальной структуре, но вперемешку с уникальными, при этом в таком виде передаются в link_analysis, что создает дополнительные проверки в коде на уникальность заголовков, при этом сами такие заголовки не обрабатываются. Цель следующая — локализация понятия "дублирующийся заголовок" внутри web_crawler, для link_analysis он должен выглядеть уникальным.
Решение задачи
Принято решение по обработке таких заголовков. Пусть web_crawler на стадии сбора сверяет новый заголовок с базой, в случае дубликации дописывает постфикс к ID документа: ID_документа/1-DUP, где цифра — порядковый номер найденного дубликата для их общего ID. При нахождении первого дубликата оригинал также должен переименовываться, его порядковый номер равен 1, первого дубликата — 2 и т.д. При проверке новых документов придется проверять ID из базы на наличие постфикса, отделять его и сравнивать ай-ди нового документа с основной частью ай-ди документа из базы. Для расчета порядкового номера найденного дубликата придется еще раз пройтись по базе, дабы определить количество дубликатов.