Chen-Yang-Liu/PromptCC

ValueError: not enough values to unpack (expected 2, got 1)

Opened this issue · 1 comments

作者您好,我在推理和训练时都遇到了这个问题:
File "/PromptCC/models_CC.py", line 264, in forward clip_emb_A, img_feat_A = self.clip_model.encode_image(img_A) ValueError: too many values to unpack (expected 2, got 1)
看起来是因为原始的CLIP输出的是一整张图的特征,而这里的img_feat_A似乎是(N, h*w, 512)的特征
请问您可以分享下是怎么修改CLIP让它输出patch-level的图像特征吗?
感谢!

作者您好,我在推理和训练时都遇到了这个问题: File "/PromptCC/models_CC.py", line 264, in forward clip_emb_A, img_feat_A = self.clip_model.encode_image(img_A) ValueError: too many values to unpack (expected 2, got 1) 看起来是因为原始的CLIP输出的是一整张图的特征,而这里的img_feat_A似乎是(N, h*w, 512)的特征 请问您可以分享下是怎么修改CLIP让它输出patch-level的图像特征吗? 感谢!

很抱歉那是由于我们修改了CLIP package的源码,你可以在CLIP.model.VisionTransformer中修改VisionTransformer的forward如下来解决那个bug:
1