Модульная обработка изображений с использованием OpenCV и генераторов Python с помощью Detectron2. Pipeline, web-приложение и локальное приложение

На данный момент доступно только в Ya.Cloud в связи с атаками и утечками Oath_tokens с Heroku


📝 WEB-Приложение в спящем режим. Для запуска потребуется время - примерно 30 секунд после нажатия перехода по ссылке. Также, возможны сбои в работе - приложение на бесплатном сервере. Загрузка производится с помощью сервиса Cloudinary, так как heroku не позволяет осуществлять зарузку на свои сервера Фото после загрузки удаляются.


📝 Ошибка может быть связана с превышением памяти, выделенной под приложение. Можно попробовать еще раз (в браузере вернитесь на предыдущую страницу и нажмите Отправить еще раз) или взять другую картинку. С локальной сборкой проблем не возникнет

📝 Update - Для удобства, приложение дополнительно временно в демонстрационных целях, было развернуто на ВМ Ya.Cloud - доступно по этой ссылке


Модульная обработка изображений с использованием OpenCV и генераторов Python с помощью Detectron2. Идея модульности позволяет программировать промышленный pipeline обработки несколькими специалистами DS. Идея использования генераторов взята у Arosław Gilewski и оформленна под Detectron2, были учтены все изменения в технической составляющей - в итоге получаем полноценный модуль, который может дополняться в нужных нам вариациях.

Целью работы была реализация различных подходов внедрения Detectron2 и OpenCV в проекты - как локальные, так и web с использованием модулей или же в виде скриптов с применением различных вариантов работы моделей, а также продемонстрировать различные варианты установки модулей и зафиксировать различные способы решения проблем, возникающих при работе с torch и Detectron2 в разрезе приложений. Мобильные приложения не учитывались, но оставлена ссылка, если вы вдруг захотите использовать подобный модуль на мобильных устройствах

📝 Если у Вас не открывается ссылка на medium - включите режим инкогнито Google Chrome

  1. Локальное исполнение. В данном исполнении - вы можете работать со случаными изображениями, либо применять обученную модель для детекции оружия, в том числе на видео. При расширении обучающих данных, можно получить более точные результаты. Интерфейс позволяет, не углубляясь в код, производить сегментацию изображений, в том числе и затенять фон. Позволяет использовать GPU

    Доступный функционал:

    • Изображения:

      • Работает с папками! не только единичными изображениями
      • Instance segmentation на изображениях
      • Keypoints
      • Затемнение фона (separate background)
      • Panoptic segmentation
      • Детекция оружия (custom dataset)
    • Видео:

      • Работает с папками! не только единичными видео файлами
      • Instance segmentation на видео
      • Показ обработки в режиме реального времени
      • Детекция оружия на видео

      Поддержка GPU!


📝 Подойдет тем, кто хочет иметь доступ к коду и обладать большим контролем над приложением.
📝 Примеры работы в папке output и по тексту Readme.md

-- структура модуля --

Изображения: process_img.py -> detection.pipe.py -> detction.capture_imgs.py -> 
-> detection.predict.py -> detection.annotate_img.py или detection.separate_background.py -> 
-> detection.save_img.py

Видео: process_vid.py -> detection.pipe.py -> detection.capture_vid.py -> 
-> detection.predict.py -> detection.annotate_vid.py -> 
-> detection.save_vid.py -> detection.display_vid.py
  1. Web-приложение. Реализовано дополнительно web-приложение с ограниченной функциональностью (только изображения) - Находится по адресу: https://detartyseg.herokuapp.com/ и по этой ссылке в Ya.Cloud. К сожалению - пришлось обрезать функционал, из-за ограничений размера на приложение. Также, возможен запуск через Docker - инструкция в соответствующей части файла Readme.md - локально, либо после клонирования репозитория и настройки окружения - запус через app_local.py

    Доступный функционал:

    • Изображения:

      • Работает с единичными изображениями
      • Instance segmentation на изображениях
      • Keypoints на изображениях
      • Panoptic segmentation на изображениях (УДАЛЕНО из heroku. Доступно в docker и yaCloud)
      • Затемнение фона (separate background)
      • Blur эффект
      • Черно-белое изображение

      только CPU


📝 Подойдет тем, кто не хочет тратить время на настройки - а сразу предпочитает получить результат. Есть альтернатива в виде Docker сборки

-- структура модуля --

app.py работает с Flask - загрузка css и html из static и templates. 
Загрузка изображений через Api Cloudly

Локальная работа

1. Скрипт process_img.py

Здесь представлено пять вариантов работы модели:

  • instance segmentation на классы COCO
  • instance segmentation для обнаружения оружия на кастомном датасете. Изображения были взяты с репозитория MLWhiz, которые я разметил вручную с помощью supervise.ly.

Обучение вы можете посмотреть в этом ноутбуке, если захотите обучить свой детектор (доступно и в Collab). Веса базовых моделей можно брать из зоопарка - формировать .yaml аналогично представленным в папке config

  • separate background - отделение фона, вместо аннотации. Идея предложена Arosław Gilewski
  • keypoints - для построения ключевых точек людей на изображениях (pose-flow)
  • panoptic segmentation - для паноптической сегментации изображений

Для удобства запуска, данному модулю было добавлено простое GUI, с помощью GOOEY

Установка локально

Рекомендуется устанавливать в virtuenv. Необязательный шаг - можно пропустить

pip install virtualenv
virtualenv detection
source detection/bin/activate

Также рекомендуется дочитать инструкции до конца перед началом установки. Для Win рекомендуется использовать Ubuntu 20.04.3 LTS с WLS2 или Conda терминал. Желательно, чтобы у вас уже стояла Anaconda

Шаги настройки модуля.

git clone https://github.com/ArtyKrafty/detection
pip install -r requirements_loc.txt

Detectron2 необходимо установить в соседний каталог с папкой модуля

Установка Detectron2


git clone https://github.com/facebookresearch/detectron2.git
python -m pip install -e detectron2

# На macOS, необходимо установить так (особенно, если у вас M1)
CC=clang CXX=clang++ ARCHFLAGS="-arch x86_64" python -m pip install -e detectron2

Если возникнут сложности, можно обратиться к официальной документации

наиболее частая проблема - отсутствие С++ compiler 
conda install -c conda-forge compilers

Официальное руководство по установке Detectron2.
Официальное руководство по установке Detectron2. Installation

Приложение должно быть готовым к работе, ниже приведены решения, если возникают трудности

Для Win у вас должно быть установлено Visual C++ 2015 build tools
Если нет - установите отсюда - это необходимо для Detectron2

Также, рекомендуется проверить версию torch и torchvision - проверить можно тут - выбираем Package - копируем команду для установки


📝 Если у вас появляется ошибка - Torchvision error: Could not find module image.pyd - рекомендую ознакомиться здесь с решением

Например, для CPU:

pip3 install torch torchvision torchaudio
conda install pytorch torchvision cpuonly -c pytorch

Использование модуля

  1. Instance segmentation на классы COCO
Открываем терминал

cd detection
pythonw process_img.py

📝 Обратите внимание, что вызов осуществляется через pythonw, не python или python3

У вас откроется окно:


Необходимо задать input. Это изображения, на которых будут предсказываться объекты. 
Вы можете воспользоваться моими фотографиями - папка


также вы можете выбрать порог confidence. 
Нажимаем START и в папке outputs у вас обработанные изображения


на стандартных моделях нет проблем с отработкой на основные классы в COCO датасете

  1. Instance segmentation для обнаружения оружия на кастомном датасете. Названиями классов пришлось пренебречь - иначе потеряли в универсальности. Если собрать сет больше - можно использовать подобные модели для обнаружения наличия оружия у человека
Открываем терминал

cd detection
pythonw process_img.py

📝 Обратите внимание, что вызов осуществляется через pythonw, не python или python3

У вас откроется окно:


Необходимо задать input. Это изображения, на которых будут предсказываться объекты. 
Вы можете воспользоваться моими фотографиями - папка


также вы можете выбрать порог confidence. Тут необходимо поменять модель - 
вы найдете нужную в папке config (и веса к ней):   

путь ./detection/configs/COCO-InstanceSegmentation_weapon/mask_rcnn_R_50_FPN_3x.yaml. 
Грузим к ней веса: ./detection/configs/COCO-InstanceSegmentation_weapon/model_final.pth
Нажимаем START и в папке outputs у вас обработанные изображения


здесь пришлось пожертвовать словарем классов, чтобы была универсальность - оружие не было основной целью данного приложения, использовалось в качестве примера, как можно применять модель в реальном мире на реальных задачах, а также показать baseline обучения своего детектора

  1. Отделение фона - работает аналогично - достаточно поставить отметку separate_background
Необходимо задать input. Это изображения, на которых будут предсказываться объекты. 
Вы можете воспользоваться моими фотографиями - папка


также вы можете выбрать порог confidence. Тут необходимо поменять модель - 
вы найдете нужную в папке config (и веса к ней):   

путь ./detection/configs/COCO-InstanceSegmentation/mask_rcnn_R_50_FPN_3x.yaml. 
Ставим отметку - separate background:
Нажимаем START и в папке outputs у вас обработанные изображения

Получаем изображение с blur-эффектом на фон - инвертируем маску и вместо предсказаний получаем выделенный от фона объектр


моя любимая особенность данного приложения - помогает без навыков photoshop сделать небольшую обработку своего фото

  1. Построение ключевых точек:
Необходимо задать input. Это изображения, на которых будут предсказываться объекты. 
Вы можете воспользоваться моими фотографиями - папка


также вы можете выбрать порог confidence. Тут необходимо поменять модель - 
вы найдете нужную в папке config (и веса к ней):   

путь ./detection/configs/COCO-Keypoints/keypoint_rcnn_R_50_FPN_3x.yaml. 
Нажимаем START и в папке outputs у вас обработанные изображения

Веса задавать не надо. 

Получаем изображение с отмеченными ключевыми точками. Предназначено для работы с изображениями с людьми.


здесь есть неточности, модель справляется несовершенно. Возможны улучшения, с помощью внедрения иной технологии pose flow. например, можно взять решение от YuliangXiu здесь

  1. Паноптическая сегментация изображений - достаточно указать адрес к конфигурации
Необходимо задать input. Это изображения, на которых будут предсказываться объекты. 
Вы можете воспользоваться моими фотографиями - папка


также вы можете выбрать порог confidence. Тут необходимо поменять модель - 
вы найдете нужную в папке config (и веса к ней):   

путь ./detection/configs/COCO-PanopticSegmentation/panoptic_fpn_R_101_3x.yaml 
Нажимаем START и в папке outputs у вас обработанные изображения

Веса задавать не надо. 


panoptic segmentation также удается, но не совершенно - можно взять более сложную и глубокую модель либо выбрать другой фреймворк, или же просто - дообучить, собрав сет

Целью было продемонстрировать различные варианты работы модели без углублений в код со стороны пользователя данного модуля

2. Скрипт process_video.py

Данный модуль предназначен для обработки видео и показа результата обработки при необходимости

Использование модуля

Instance segmentation на классы COCO

Открываем терминал

cd detection
pythonw process_video.py

📝 Обратите внимание, что вызов осуществляется через pythonw, не python или python3. Принцип работы аналогичный. Можно детектировать и оружие - по соображениям этики - было принято не добавлять файл с вооруженными нападениями в репозиторий

У вас откроется окно:


Необходимо задать input. Это видео, на котором будут предсказываться объекты. 
Вы можете воспользоваться моими примером


также вы можете выбрать порог confidence. 
Нажимаем START и в папке outputs у вас обработанное видео. Занимает некоторое время

📝 Примечание. Важно! На данный момент, существует bug на класс VideoVisualizer. Если возникает (видео не хочет склеиваться) - чтобы его обойти, можно использовать класс Visualizer, который используется для изображений, но маски от кадра к кадру будут меняться. Возможно bug наблюдается только на M1 silicone. Пример вывода вы можете посмотреть в папке outputs


собственно, из минусов - наблюдаем изменчивость цвета маски, в идеале - маска должна быть статична и не менять цвет. На данный момент, пришлось прибегнуть к хитрости - использовать разметку кадров и склеивать их в видео после обработки


Скрипт app_local.py - для запуска локально

зеркало для app.py, который находится по адресу: https://detartyseg.herokuapp.com/ и дополнительно в yaCloud К сожалению - пришлось обрезать функционал, из-за ограничений размера на приложение. Пришлось убрать паноптическую сегментацию - превышения памяти на приложение, на бесплатном сервере. Остался функционал в локальном приложении и docker. Если захотите воспользоваться сервисом heroku - Вам достаточно создать репозиторий с Вашим приложением, и вам будет доступно - deploy from git


📝 Update - Для удобства, приложение дополнительно временно, в демонстрационных целях, было развернуто на ВМ ya.Cloud - доступно по этой ссылке

Если хотите запустить локально - запускаем app_local.py. но у вас должно быть настроено уже окружение (как мы настраивали выше):

 git clone https://github.com/ArtyKrafty/detection
 cd detection
 python app_local.py

Запустится приложение с ограниченным функционалом по адресу - http://ВАШ_URL_из_терминала:8080/


Здесь вы можете загрузить изображение с рабочего стола, выделить маски на нем или затемнить фон. Также возможно загрузка изображений по URL - только instance segmentation


Другой вариант - запуск через Docker (локальная версия https://detartyseg.herokuapp.com/) - вес образа ~14.1 GB (у вас должен быть установлен Docker - дополнительно ничего не требуется):

git clone https://github.com/ArtyKrafty/detection

cd detection

docker build . -f Dockerfile -t detectron2
docker run --name detectron2 -p detectron2

затем - после того, как закончили:

docker stop detectron2
docker rm $(docker ps -qa)

или использовать docker-desktop приложение, что может быть удобнее

посмотреть директории внутри: docker run -t -i detectron2 /bin/bash


Также, вы можете с помощью Dockerfile запустить приложение на вашей ВМ

📝 Если у вас MacOS - зайдите в настройки docker -> advanced и увеличьте память RAM с 2 до 4 ГБ - иначе С++ компилятор не сможет собрать torch

Виртуальная машина

С помощью Dockerfile Вы можете установить web-приложение на виртуальную машину. Минимальные требования к Vm - 8gb Ram, vCpu - 50%, 20Gb HDD - стоимость такой машины в месяц - примерно 1700 - 1900 руб. Gpu подключать нет смысла - работаем с единичными изображениями

Регистрируемся на любом сервисе, предоставляющим услуги ВМ - например, я воспользовался Ya.Cloud

В консоли выбираем - Compute Cloud:


Выбираем в качестве операционной системы нашей ВМ - Ubuntu:


Нам необходимо создать ssh-key для обмена с виртуальной машиной и ввести его в это поле:


Для того, чтобы создать ssh ключ, на MacOS достаточно зайти в терминал, на Windows - вы можете скачать git - в который входит улитита, необходимая для создания ключа.

cd .ssh

mkdir <your_app_name>
cd <your_app_name>
ssh-keygen -t rsa

Вам будет предложено создать имя ключа и создать пароли. Дальше вам просто необходимо прочитать ваш публичный ключ и скопировать вывод в специальное поле виртуальной машины

cat test_key.pub

Копируем вывод и нажимаем создать ВМ Теперь мы можем к ней подключить в терминале:

ssh <ЛОГИН>@<публичный_IP-адрес_виртуальной машины> 

Публичный адрес Вам будет доступен после создания. Дальше, идем сюда и устанавливаем на вашу ВМ Docker. После установки. все как и у вас локально:

git clone https://github.com/ArtyKrafty/detection

cd detection

docker build . -f Dockerfile -t detectron2
docker run --rm --name detectron2 -p 8080:8080 detectron2

Если при сборке Docker возникает ошибка docker: Got permission denied issue - просто выполняем команду: sudo chmod 666 /var/run/docker.sock

Приложение будет доступно тут:

публичный_IP-адрес_виртуальной машины>:8080

Техническая поддержка

Проблемы возникают не с приложением, а могут возникнуть при установки сопутствующего окружения - Detectron2, torch и так далее. Здесь собрал решения, которые помогут вам в установке, если вы решите работать не через docker. Тестировалось на MacOs и Windows - на Win - основная проблема - отсутствие Microsoft Visual C++. Данный сборник поможет решить основные проблемы по установке torch и Detectron2. Также, рекомендую, чтобы у вас уже была Anaconda

Источник Описание Решение
Приложение Web-app Появляется ошибка heroku - Application Error Ошибка может быть связана с превышением памяти. Можно попробовать еще раз выполнить действие или взять другую картинку. С локальной сборкой проблем не возникнет
torch, Detectron C++ ошибка на Windows при установке на pycatools У вас не установлен Visual Studio C++ - отсутствует компилятор. Установите отсюда
torch, torchvision устаревшая версия или установлена не соответствющая вашему ПК проверить можно тут
torch Torchvision error: Could not find module image.pyd ознакомиться здесь с решением
Docker ошибка с С++ при сборке или os зайдите в настройки docker -> advanced и увеличьте память RAM с 2 до 4 ГБ


По результатам работы, удалось построить два полноценных модуля: локальный с поддержкой GPU и работой с группой файлов и web-версию, которое работает с единичными изображениями без необходимости настройки и установки. Данный модуль является достаточно гибким, в него можно добавлять новые модели, улучшать их качество посредством дообучения или перенастраивать под нужды бизнеса или иных заинтересованных лиц с помощью обучения на свое сете и встраивании моделей через добавление новых конфигураций

Данный модуль может быть использован и с другими моделями и фреймворками, не только detectron - необходимо лишь заменить модели в исполнительных файлах.

В локальной версии, модуль может быть использован продвинутыми разработчиками или заинтересованными лицами, а в web-версии - пользователям не важно уметь владеть навыками работы с детекторами - без значительных усилией - может быть получен некоторый результат. Для удобства, была реализована поддержка Docker и добавлена подробная инструкция по настройке модуля. Если у вас появится желание реализовать подобное приложение для мобильных телефонов - вы можете воспользоваться D2go, репозиторий тут

Bonus В этом ноутбуке, вы найдете baseline применения детектора для переноса стиля. В комбинации с VGG19. Встраивать данный модуль не стали - обязательно требуется наличие GPU - иначе процесс обучения достаточно долгий

Спасибо за прочтение


  1. Курс Deep learning school - обучают и направляют.
  2. Arosław Gilewski - инженер CV. Идея использования генераторов python и за baseline удаления фона.
  3. Detectron2 - библиотека Meta для работы с изображениями с огромным зоопарком обученных моделей.
  4. OpenCV - средство обработки видео и изображений. Без этой библиотеки было бы сложнее.
  5. Heroku - быстрый способ разработки и размещения приложений.
  6. pyTorch - фреймворк работы с нейронными сетями
  7. Docker - средство упаковки и перемещения приложений
  8. MLWhiz - предоставлены образцы изображений для разметки

