В текущей версии - если сделать нескоько запросов в минуту - поймаем каптчу. Распознавание каптчи здесь не реализовано. Просто подождать и повторить запрос через пару минут. Но зато удалось добиться чтобы сервер не блокировал наш парсер по IP.
Возможно добавление нескольких прокси Но задача сложная т.к. необходимо под каждый IP запоминать свои cookies И парсер иногда делает несколько подряд успешных запросов с одного IP
Защита сервера COPART
- раз в 5 минут проверка поддерживет ли клиент JS - подсовывается обфусцирофванный JS код, который вычисляет ключ сессии и закидывает в кукиесы
- ключ сессии привязывается к IP
- после успешной генерации ключа сессии несколько минут клиент с этого IP может делать запросы вообще без cookies
- если серверу что то не понравится - блокирует по IP на пару часов
- сайт на Ангуляре, есть JSON API - от куда и берем данные о лотах
- подсовывается обфусцирофванный JS код, который вычисляет ключ сессии и закидывает в кукиесы
- запрещены запросы без ключа сессии
- сайт без JSON API (данные парсим из HTML) данные лота
- Подключить зомби браузер на сервере через Slenium (достоинства - полноценный браузер обойдет все защиты, недостатки - каждый запрос неколько секунд, пока подымется браузер)
- На чистом NodeJs с pappytear (Хромиум) - недостаток, надо прокидывать порт и подымать сервер на NodeJS для обработки запросов
- PHP + NodeJs (php делает основные запросы, и если срабатывает защита раз в пять минут вызываем nodejs)
- Делаем запрос PHP (с ИСХОДЯЩИМИ кукиесами которые получили в пп 4. или без них если нулевой шаг) ловим ВХОДЯЩИЕ кукесы в file ля будущих PHP запросов
- Если данне получены - выводим РЕЗУЛЬТАТ
- Если данные не получены - вызываем Nodejs - с высокой долей вероятности получаем нужный JSON - выводим РЕЗУЛЬТАТ Комментарий - почему куки из пп 3 не передаем в пп 1 - это магия. Сервер фиксирует в пп 3 успешный JS клиент и далее доверяет PHP в пп 1 который работает со своими куками в file