ValueError: not enough values to unpack (expected 2, got 1)

Question

ValueError: not enough values to unpack (expected 2, got 1)

Opened this issue 10 months ago · 1 comments

作者您好，我在推理和训练时都遇到了这个问题：
File "/PromptCC/models_CC.py", line 264, in forward clip_emb_A, img_feat_A = self.clip_model.encode_image(img_A) ValueError: too many values to unpack (expected 2, got 1)
看起来是因为原始的CLIP输出的是一整张图的特征，而这里的img_feat_A似乎是(N, h*w, 512)的特征
请问您可以分享下是怎么修改CLIP让它输出patch-level的图像特征吗？
感谢!

Answer 1 · 2023-10-31T12:50:17.000Z

作者您好，我在推理和训练时都遇到了这个问题： File "/PromptCC/models_CC.py", line 264, in forward clip_emb_A, img_feat_A = self.clip_model.encode_image(img_A) ValueError: too many values to unpack (expected 2, got 1) 看起来是因为原始的CLIP输出的是一整张图的特征，而这里的img_feat_A似乎是(N, h*w, 512)的特征请问您可以分享下是怎么修改CLIP让它输出patch-level的图像特征吗？感谢!

很抱歉那是由于我们修改了CLIP package的源码，你可以在CLIP.model.VisionTransformer中修改VisionTransformer的forward如下来解决那个bug：