Детекция людей и автомобилей на видео

Написать программу на с++, выполняющую детекцию людей и автомобилей на видео или изображении, используя рантайм Apache TVM (https://tvm.apache.org/) и нейросеть tiny yolo v4

Программа должна принимать путь к mp4 или jpg файлу и выводить в stdout в формате json объектов координаты найденных объектов, их класс и таймстемпы кадров, в которых они были задетектированы

Потребуется подготовить скрипт компиляции предоставленной нейронной сети из открытого формата onnx для запуска под Apache TVM runtime

В качестве входных данных сети использовать покадрово прочитанный файл mp4 или jpg.

Результат работы сети отфильтровать по классам "человек" и "автомобиль", отобрать наиболее вероятные детекции (не более 10) и сформировать координаты левого верхнего и правого нижнего прямоугольника детекции (в пикселях)

Программа должна запускаться, используя команду make run.