Тестировалось на Ubuntu 20.04.1 + python3.9
- Установить python3.9
- Создать и активировать venv
- pip3 install -r requirements.txt
- python3 setup.py develop
- Порядок запуска для сохранения HTML, Фотографий с баду и их последующей разметки: html_parser -> avatar_saver -> face_detector -> web_markuper
html_parser = Парсер профилей баду с помощью селениум с автоматическим отклонением для обхода бана по лимиту лайков в день
avatar_saver = Парсит HTML, находит фотографии, сохраняет на диск
face_detector = Находит лица на фотографиях, сохраняет в базу 128-размерный вектор лица
web_markuper = Веб разметчик с 3 опциями: 1 - нравится, -1 - не нравится, 0/NULL - пропуск, обновить модель - загружает размченные данные в модель и переобучает ее
web = Интерфейс пользователя, где представлен вывод работы мат. модели LinearSVC, так же есть возможность оспорить вывод.
Формат таблицы с векторами лиц в базе:
id - автоинкремент
original_filename - HTML из которого была спаршена фотография
face_embeddings - 128-размерные вектора лиц на фотографии найденные с помощью библиотеки face-recognition
status - Статус
- 1 - Нравится
- -1 - Не нравится
- 0 - Пропуск (если несколько лиц)
- NULL - не размечено (нет лица на фотографии)