PKU-YuanGroup/LanguageBind

【ICLR 2024🔥】 Extending Video-Language Pretraining to N-modality by Language-based Semantic Alignment

PythonMIT

Issues

AttributeError: 'NoneType' object has no attribute 'astype' in Depth processor
#68 opened 2 months ago by SoyeonHH
1
ValueError: Input image size (112*1036) doesn't match model ([112, 1036]*[112, 1036]).
#67 opened 2 months ago by JeffRody
1
关于数据集的一些问题
#57 opened 6 months ago by XiaoZong0
1
Does the model work in scenarios with missing modalities?
#66 opened 3 months ago by naajeehxe
2
embedding arithmetic
#65 opened 3 months ago by bakachan19
0
Combination of multiple modalities
#38 opened a year ago by anthony-mendil
7
How to calculate similarity of Video to audio?
#64 opened 4 months ago by Coooderr
0
token masking and contrastive learning
#63 opened 4 months ago by ooochen-30
0
Can not find datasets for LanguageBind_Image？
#62 opened 4 months ago by superwood
0
where is the code of LanguageBind_Image and how to train it?
#61 opened 4 months ago by superwood
0
Embedding similarity
#60 opened 5 months ago by akBear23
0
Any support for languages other than English?
#59 opened 5 months ago by ragesh2000
0
Method of running evaluation on MSR-VTT dataset
#58 opened 5 months ago by sartaki
0
Video-Language Pre-training hours
#56 opened 7 months ago by msw6468
0
Are some of these models interchangeable?
#55 opened 7 months ago by felmoreno1726
0
Pretraining on video dataset without lora.
#54 opened 7 months ago by shihuai
0
Clarification questions about the framework
#50 opened 9 months ago by felmoreno1726
4
Inquiry on Unimodal Fine-Tuning with Locked Image in LanguageBind
#41 opened 8 months ago by hexinyi2101
0
Any plans to use Long-CLIP to extend text input token limit?
#53 opened 8 months ago by lennartmoritz
0
Fine-tuneing LLM + LanguageBind?
#42 opened 10 months ago by Crystalxd
1
Non-reproducible MSRVTT results - I get R@1 accuracy less than 1%
#51 opened 9 months ago by lennartmoritz
2
gpu资源
#47 opened 9 months ago by letaozhang
1
NameError: name 'get_audio_anno' is not defined
#52 opened 8 months ago by noah003
0
where is LanguageBind_Image
#46 opened 10 months ago by hd201708010401
2
关于视频文本的训练问题
#49 opened 9 months ago by Tunanzzz
0
How to load pt model trained according to Training LanguageBind step?
#48 opened 9 months ago by haochange
1
Inconsistent running results of inference.py
#45 opened 10 months ago by Jade999
5
confusion about VIDAL-10M video-text data
#44 opened 10 months ago by wli333
0
The length of text that the text encoder can handle
#40 opened a year ago by song-wensong
1
VIT-H model on other modality [Audio/Depth/Thermal]
#39 opened a year ago by tikboaHIT
1
Audio-Language Alignment data for reproduction
#36 opened a year ago by memoiry
1
Use of undefined functions during fine_tune with custom audio data
#37 opened a year ago by okaybody10
1
Can you share the NYU-D dataset you used for evaluation, e.g. how to split the dataset?
#29 opened a year ago by bf-yang
2
finetuning on a classification task
#35 opened a year ago by Sravanthgithub
0
Vision encoder version
#34 opened a year ago by JosephPai
1
What is the training configurations for full tuning?
#32 opened a year ago by StanLei52
4
Congrats on Acceptance !!!
#33 opened a year ago by SenmiaoORZ
1
batch inference
#31 opened a year ago by doyikim1
0
What's the difference between LanguageBind and LLaVA-1.5
#26 opened a year ago by OPilgrim
2
视频特征的提取支持动态帧数吗，效果相对于8帧会有下降或者变差吗
#27 opened a year ago by 1093842024
1
Why don't to share the parameters backbone between Image and Video?
#28 opened a year ago by SCZwangxiao
1
how to load LanguageBind/LanguageBind_Video_Huge_V1.5_FT model
#30 opened a year ago by valencebond
1
Add flash attention 2
#19 opened a year ago by pphuc25
7
VIT-H model release
#22 opened a year ago by tikboaHIT
2
How to Initialize the multi-modal encoders & training from scratch
#25 opened a year ago by chen-yy20
1
where is the LanguageBind_Audio_FT in huggingface?
#24 opened a year ago by kou35
1
about LanguageBind_Video_merge
#23 opened a year ago by kou35
1
Hashtags and prompts?
#21 opened a year ago by Kamino666
4
用于特征提取对齐，选用输出为什么参数
#20 opened a year ago by xiaohaochen0308
1
Can I change embeddings['image'].shape from 768 to 1024?
#18 opened a year ago by dongfeicui
1