clownrat6/OpenVIS

Open-vocabulary Video Instance Segmentation Codebase built upon Detectron2, which is really easy to use.

Python

Instance Brownian Bridge as Texts for Open-vocabulary Video Instance Segmentation

Getting Started

Download Mask2former R50 weights trained on COCO Instance Segmentation and put it in pretrained/model_final_3c8ec9.pkl
Dataset Prepare
Installation

Updates

[2024.1.21] Model ZOO is in preparetion. If your have any problems about this codebase, please contact me cyanlaser@stu.pku.edu.cn

Training

Reproducing OpenVIS: Open-vocabulary Video Instance Segmentation:

python train_net.py --config-file configs/openvoc_ytvis/openvis_R50_bs16_6000st.yaml --num-gpus 8

Reproducing BriVIS:

python train_net.py --config-file configs/openvoc_ytvis_coco/san_online_R50_bs16_6000st.yaml --num-gpus 8
python train_net.py --config-file configs/openvoc_ytvis_coco/brivis_R50_bs16_6000st.yaml --num-gpus 8 MODEL.WEIGHTS work_dirs/openvoc_ytvis_coco/san_online_R50_bs16_6000st/model_final.pth