TencentARC/UMT

UMT is a unified and flexible framework which can handle different input modality combinations, and output video moment retrieval and/or highlight detection results.

PythonNOASSERTION

Issues

Seed for Youtube Highlights Categories
#53 opened a month ago by SalmaMohamedElsayed
0
Model Instability
#52 opened 2 months ago by SalmaMohamedElsayed
3
about model
#51 opened 2 months ago by youngprogrammerBee
1
Audio feature extraction
#40 opened 2 months ago by GYGWG
1
Audio feature extraction
#48 opened 2 months ago by SalmaMohamedElsayed
1
The forward method of UMT
#50 opened 2 months ago by czzhao-sjtu
1
My dataset
#49 opened 2 months ago by anas2908
1
Can you provide the original video data? Especially YouTube Highlights.
#12 opened 2 years ago by mxtx0509
5
Attention map visualization
#36 opened a year ago by G-Apple1
2
qvhighlights/umt_base_pretrain_100e_asr.py
#46 opened 6 months ago by c1d2y3
1
The Checkpoint file requirment
#47 opened 7 months ago by EasonXiao-888
0
result of QVHighlights val set
#45 opened 7 months ago by EasonXiao-888
2
Inference code
#44 opened 8 months ago by hadesfgh
1
Error. TypeError: '>=' not supported between instances of 'DataContainer' and 'int'
#43 opened a year ago by GuangtaoLyu
2
Any idea of model's general highlight effectiveness
#41 opened a year ago by JW-xiilab
2
Inference mode
#42 opened a year ago by Rj-batista
6
Model applicability
#39 opened a year ago by gracikk-ds
1
Query feature in TVSum highlight detection
#38 opened a year ago by GYGWG
1
TVSum training problem
#37 opened a year ago by GYGWG
2
音频特征提取部分的代码
#35 opened a year ago by luyanger1799
1
Pretraining Problem
#33 opened 2 years ago by Lonicer
3
What is the horizontal coordinate of Figure 4 in the paper? What does it represent?
#32 opened 2 years ago by G-Apple1
3
Model Computation Amount (FLOPs) and Number of Parameters (Params)
#34 opened 2 years ago by Yangaiei
1
results visualized
#31 opened 2 years ago by Yangaiei
2
model test
#28 opened 2 years ago by Yangaiei
14
Text embedding on charadesSTA dataset and some minor questions
#30 opened 2 years ago by hsi1032
5
Misalignment between video and audio for QVhighlight
#29 opened 2 years ago by wjun0830
2
feature extraction （i3d and optical flow）
#7 opened 2 years ago by Lvqin001
16
retrieve a video in real time
#26 opened 2 years ago by Lynneyyq
3
automatic learning rate adjustment
#25 opened 2 years ago by Yangaiei
2
How do I use the trained models available in model zoo
#24 opened 2 years ago by AliButtarRB
1
save epoch problems
#27 opened 2 years ago by xiaohuihui-com
1
validate
#23 opened 2 years ago by tangxiaochu123230
1
audio feature extraction
#22 opened 2 years ago by Yangaiei
1
metric methods
#21 opened 2 years ago by oomq
6
How to align the audio and video at the clip level
#18 opened 2 years ago by Lynneyyq
8
Can you provide a demo about running predictions on my own videos and queries
#19 opened 2 years ago by hpppppp8
2
Hello, questions about text feature extraction。
#20 opened 2 years ago by Yangaiei
5
how to align the audio feature and video feature?
#17 opened 2 years ago by Xuguozi
7
How do I make my dataset
#16 opened 2 years ago by Yangaiei
3
RuntimeError: CUDA error: no kernel image is available for execution on the device
#15 opened 2 years ago by hpppppp8
1
How can I annotate my own dataset?
#11 opened 2 years ago by Xuguozi
1
how to visulize the results in your paper
#14 opened 2 years ago by wenhaoHou
1
feature exaction
#13 opened 2 years ago by Xuguozi
1
bug?? if (num_gt := sum(label)) == 0:
#10 opened 2 years ago by Xuguozi
7
How to prepare the data
#9 opened 2 years ago by Lynneyyq
1
.json annotation
#8 opened 2 years ago by Lynneyyq
1
extract audio features
#6 opened 2 years ago by G-Apple1
1
Something seems wrong in the head.py
#4 opened 2 years ago by NNNNAI
1
How to extract video features
#5 opened 2 years ago by Yangaiei
1