/PostCrawler

This is solution for those who need to get info from news sites.

Primary LanguagePythonGNU General Public License v3.0GPL-3.0

PostCrawler

Этот скрипт облегчает жизнь только с теми сайтами в которых контент подгружается без использования JavaScript

  • На данный момент скрипт парсит лишь ссылки которые находятся на странице сайта которую ему задали и контент который находится по этим ссылкам
  • В следующем обновлении будет добавлена возможность парсинга изображений
  • Также планируется выпустить версию для остальных новостных сайтов
  • Во второй версии будет добавлена возможность рекурсивного поиска ссылок в найденых статьях
  • Также в планах создание фильтров для нормализации контента