Universal_Web_Parser

Universal_Web_Parser

License: MIT

Web Parser

Универсальный парсер веб-сайтов на Ruby с поддержкой JavaScript-рендеринга и обработкой пагинации.

Возможности

Парсинг статических и динамических (JavaScript) веб-страниц

  • Поддержка пагинации

  • Сохранение результатов в CSV и JSON форматы

  • Соблюдение robots.txt

  • Обработка ошибок и повторные попытки

  • Кэширование результатов

  • Настраиваемые задержки между запросами

Требования

  • Ruby 3.0+
  • Google Chrome (для JavaScript-рендеринга)
  • Bundler

Установка

  1. Клонируйте репозиторий:

git clone https://github.com/your-username/web_parser.git

cd web_parser

  1. Установите зависимости:

bundle install

Использование

Парсинг статей с Habr.com

ruby examples/parse_habr.rb

Этичный парсинг

  • Проверяйте robots.txt
  • Используйте задержки между запросами
  • Указывайте User-Agent
  • Не перегружайте сервер
  • Кэшируйте результаты

Зависимости

  • nokogiri
  • httparty
  • capybara
  • selenium-webdriver
  • webdrivers
  • json

Лицензия

MIT License. См. файл LICENSE для деталей.

Автор

Mikhail Tarasov (Timcore)