Для скачивания новостных статей с сайтов разработаны парсеры (parsers/interfax.js и parsers/rbc.js). Для запуска парсера потребуется JS Node, запуск производится с помощью консоли:
node interfax.js <path>
node rbc.js <path>
<path> - путь к папке, куда нужно сохранять файлы.
Предполагается, что парсеры будут ежедневно запускаться через задачу cron.
Для запуска обучения моделей потребуется набор данных (заранее сгенерированный с помощью парсеров) IDE, Python, а также установленные библиотеки, которые используются в ячейках.
Сам файл обучения моделей находится в файле learner.ipynb.
Для использования разработанного API интерфейса потребуются обученные ранее модели u, vectorized и svd. Чтобы запустить приложение - нужно иметь установленный uvicorn и запустить wsgi.py с помощью следующей команды в консоли:
uvicorn wsgi:app
После запуска приложения нужно зайти через браузер по следующей ссылке: http://localhost:8000/docs. С помощью метода digest, введя интересующий промежуток времени в формате UTC можно выполнить запрос и получить релевантные новости, которые подходят для формирования дайджестов и инсайтов.
Все необходимые пакеты можно установить в виртуальную среду (venv) через conda с помощью environment.yaml файла