Универсальный парсер веб-сайтов на Ruby с поддержкой JavaScript-рендеринга и обработкой пагинации.
Парсинг статических и динамических (JavaScript) веб-страниц
-
Поддержка пагинации
-
Сохранение результатов в CSV и JSON форматы
-
Соблюдение robots.txt
-
Обработка ошибок и повторные попытки
-
Кэширование результатов
-
Настраиваемые задержки между запросами
- Ruby 3.0+
- Google Chrome (для JavaScript-рендеринга)
- Bundler
- Клонируйте репозиторий:
git clone https://github.com/your-username/web_parser.git
cd web_parser
- Установите зависимости:
bundle install
ruby examples/parse_habr.rb
- Проверяйте robots.txt
- Используйте задержки между запросами
- Указывайте User-Agent
- Не перегружайте сервер
- Кэшируйте результаты
- nokogiri
- httparty
- capybara
- selenium-webdriver
- webdrivers
- json
MIT License. См. файл LICENSE для деталей.
Mikhail Tarasov (Timcore)