lenarsaitov/cianparser

Дупликаты в выдаче

Chewingus opened this issue · 8 comments

из 2797 объектов 1319 полных дубликата без учета оригинала вплоть до ссылки на объявление. Причем это не последние 1319 объектов. Они разбросаны по датасету. С чем это может быть связано?

это связано с тем, что сайт выдает списки с объявлениями лишь до 54 страницы включительно

далее при попытке перейти на 55 страницу, нас перебрасывает уже на первую, и всё идет по новой

в описании к проекту я указывал на подобное, хотя, пожалуй, не совсем явно..

https://github.com/lenarsaitov/cianparser#%D0%BE%D0%B3%D1%80%D0%B0%D0%BD%D0%B8%D1%87%D0%B5%D0%BD%D0%B8%D1%8F

Тогда у 2797 объектов должно быть 1285 дубликатов а не 1319? А для 64 страниц 15,625% дубликатов? А мне для 64 страниц показало чуть больше 1%, для 74 около 15 вместо 27%

хмм, интересно, постараюсь изучить подобный момент в ближайшее время.

вполне возможно, что это связано с показом рекламных объявлений

Но а так, начиная с 0.4.11, имеется функционал определения переброски страницы на иную позицию, поэтому можно не боятся, и проставлять сколько угодно большое значение у end_page

хмм, интересно, постараюсь изучить подобный момент в ближайшее время.

вполне возможно, что это связано с показом рекламных объявлений

А рекламные тоже в выдаче есть?

да, как я помню, подобные имеются, хоть и в небольшом количеств

некоторые из объявлений могут повторятся на разных страницах

их я и именную рекламными, хотя как таковой особой маркировки на сайте нет

@Chewingus можно ли считать проблему решенной?

Да, спасибо