这个任务是关于单视频中视频问答定位(TAGSV),目标是从给定的单个医疗教学视频中使用自然语言问题定位视觉答案。为了解决这个问题,我们提出了一种新的跨模态相互知识转移跨度定位(MutualSL)来解决跨模态知识偏差。
详细的方法描述和实现可以在子目录的README.md文件中找到。点击此处查看子目录的README.md
这个任务是关于视频视觉答案定位(VCVAL),目标是在大量未修剪,未分段的教学视频中使用自然语言问题定位视觉答案。我们将此任务拆解分为2个子任务:视频数据库检索(Video Corpus Retrieval, VCR)和视频数据库中时序问答定位(Temporal Answer Grounding in Video Corpus, TAGVC)。为了解决这个问题,我们提出了一种跨模态对比全局跨度(CCGS)方法,联合训练视频语料库检索和视觉答案定位任务。
详细的方法描述和实现可以在子目录的README.md文件中找到。点击此处查看子目录的README.md Issues
如果在环境部署或者代码运行上出现问题,欢迎提Issues,或者联系Yixuan Weng或Bin Li
@INPROCEEDINGS{10095026,
author={Weng, Yixuan and Li, Bin},
booktitle={ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
title={Visual Answer Localization with Cross-Modal Mutual Knowledge Transfer},
year={2023},
volume={},
number={},
pages={1-5},
doi={10.1109/ICASSP49357.2023.10095026}}
@INPROCEEDINGS{10096391,
author={Li, Bin and Weng, Yixuan and Sun, Bin and Li, Shutao},
booktitle={ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
title={Learning To Locate Visual Answer In Video Corpus Using Question},
year={2023},
volume={},
number={},
pages={1-5},
doi={10.1109/ICASSP49357.2023.10096391}}