/vtb_hack

Primary LanguageJupyter Notebook

Coffe Science digest and insight generation algorithm

Парсер и скачивание данных с сайтов новостных агентств (Интерфакс и РБК)

Для скачивания новостных статей с сайтов разработаны парсеры (parsers/interfax.js и parsers/rbc.js). Для запуска парсера потребуется JS Node, запуск производится с помощью консоли:

node interfax.js <path>
node rbc.js <path>

<path> - путь к папке, куда нужно сохранять файлы.

Предполагается, что парсеры будут ежедневно запускаться через задачу cron.

Обучение моделей кластеризации

Для запуска обучения моделей потребуется набор данных (заранее сгенерированный с помощью парсеров) IDE, Python, а также установленные библиотеки, которые используются в ячейках.

Сам файл обучения моделей находится в файле learner.ipynb.

Использование API для получения результата моделей

Для использования разработанного API интерфейса потребуются обученные ранее модели u, vectorized и svd. Чтобы запустить приложение - нужно иметь установленный uvicorn и запустить wsgi.py с помощью следующей команды в консоли:

uvicorn wsgi:app

После запуска приложения нужно зайти через браузер по следующей ссылке: http://localhost:8000/docs. С помощью метода digest, введя интересующий промежуток времени в формате UTC можно выполнить запрос и получить релевантные новости, которые подходят для формирования дайджестов и инсайтов.

Установка необходимых пакетов Python

Все необходимые пакеты можно установить в виртуальную среду (venv) через conda с помощью environment.yaml файла