Задачи:
- Разработка архитектуры системы.
- Подготовка исходных данных.
- Анализ существующих моделей.
- Обучение и оценка моделей на исходном датасете.
- Выбор наиболее оптимальной модели.
- Развертывание наилучшей модели.
Датасет: Habr dataset
Проект: habr-posts-likes-prediction
Датасет содержит текст статьи, заголовок, статистику по лайкам/комментариям. Чтобы подтвердить целесообразность использования выбранного датасета, был проведен эксперимент по предсказанию количества лайков с помощью текстового контента. В качестве данных были выбраны первые 100 слов в preview статьей и TF-IDF Vectorizer. Полученные вектора были использованы для задачи регрессии с помощью XGBoost Regressor. В результате была получена средняя абсолютная ошибка (MAE) равная 22.7 (математическое ожидание 33, стандартное отклонение 40.7). Тем самым было подтверждено, что поставленную задачу можно решить, используя выбранный датасет.