/crawl-task

Primary LanguageJupyter Notebook

Тестовое задание по сбору и анализу новостей

collect_news.py

Сбор новостей из архива за указанный интервал дат, ссылки на нужные новости отправляются на чтение в функцию read_news.

read_news.py

Чтение новости по ссылке, функция read_news возвращает экземпляр класса новости.

notebook.ipynb

Jupyter-ноутбук, в котором задаётся интервал дат, запускается краулер, а затем происходит анализ собранных данных. Для примера анализ данных сделан для новостей за 01.03.2021 - 30.06.2021.

news_odkb, news_sptnk, news_kz

Папки для json-файлов собранных новостей по дням. Сейчас в них собраны новости за интервал 01.03.2021 - 30.06.2021.

logs_odkb.txt, logs_sptnk.txt, logs_kz.txt

Логи при сборке и чтении новостей.