预测时，是否对输入图像的尺寸有要求

Question

预测时，是否对输入图像的尺寸有要求

Closed this issue 10 months ago · 2 comments

非常好的项目，终于有个端到端的方法进行文字擦除了，预测时省去了文本检测以及mask的构造，但是由于我不是CV方向的，所以有些简单的问题并不清楚，希望能够得到解答。

我使用提供的权重进行预测时，经过多次测试发现，输入图像的高宽必须满足2的n次方，例如128/256/512等这些长度，否则会报错，请问这是模型设计就是如此，还是存在bug。
如果我要自己训练模型，是不是只需要论文中如下图的a、b、c即可

Answer 1 · 2023-08-08T09:53:34.000Z

1.第一个不是bug，主要是cv里面的下采样一般都是2的倍数。如果你的图像没有处理成2的倍数，比如是127，会有取整一般好像是向下取整，再上采样时维度就对不上了。所以你需要在输入的时候，通过padding或者resize的方式把图片处理成2的倍数，我是在256上训练的，所以最好处理成256。当然你也可以根据需要处理成任意的2的倍数都行。 2.是的，只需要原图，擦除后的图片和mask就行。          如果你只是想擦除文字，只需要原图和擦出后的图片就行。网络可以是任意的cnn或者transformer网络。只需要把输出处理成你想要的格式。可以省去获取文字mask的步骤。如果我解释的不清楚，或者有别的问题，可以随时发邮件问我。 Guangtao Lyu ***@***.***  

…

------------------ 原始邮件 ------------------ 发件人: "GuangtaoLyu/FETNet" ***@***.***>; 发送时间: 2023年8月8日(星期二) 下午5:02 ***@***.***>; ***@***.***>; 主题: [GuangtaoLyu/FETNet] 预测时，是否对输入图像的尺寸有要求 (Issue #2) 非常好的项目，终于有个端到端的方法进行文字擦除了，预测时省去了文本检测以及mask的构造，但是由于我不是CV方向的，所以有些简单的问题并不清楚，希望能够得到解答。我使用提供的权重进行预测时，经过多次测试发现，输入图像的高宽必须满足2的n次方，例如128/256/512等这些长度，否则会报错，请问这是模型设计就是如此，还是存在bug。如果我要自己训练模型，是不是只需要论文中如下图的a、b、c即可 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you are subscribed to this thread.Message ID: ***@***.***>

Answer 2 · 2023-08-09T01:17:28.000Z

1.第一个不是bug，主要是cv里面的下采样一般都是2的倍数。如果你的图像没有处理成2的倍数，比如是127，会有取整一般好像是向下取整，再上采样时维度就对不上了。所以你需要在输入的时候，通过padding或者resize的方式把图片处理成2的倍数，我是在256上训练的，所以最好处理成256。当然你也可以根据需要处理成任意的2的倍数都行。 2.是的，只需要原图，擦除后的图片和mask就行。如果你只是想擦除文字，只需要原图和擦出后的图片就行。网络可以是任意的cnn或者transformer网络。只需要把输出处理成你想要的格式。可以省去获取文字mask的步骤。如果我解释的不清楚，或者有别的问题，可以随时发邮件问我。 Guangtao Lyu @.***
…
------------------ 原始邮件 ------------------ 发件人: "GuangtaoLyu/FETNet" @.>; 发送时间: 2023年8月8日(星期二) 下午5:02 @.>; @.>; 主题: [GuangtaoLyu/FETNet] 预测时，是否对输入图像的尺寸有要求 (Issue #2) 非常好的项目，终于有个端到端的方法进行文字擦除了，预测时省去了文本检测以及mask的构造，但是由于我不是CV方向的，所以有些简单的问题并不清楚，希望能够得到解答。我使用提供的权重进行预测时，经过多次测试发现，输入图像的高宽必须满足2的n次方，例如128/256/512等这些长度，否则会报错，请问这是模型设计就是如此，还是存在bug。如果我要自己训练模型，是不是只需要论文中如下图的a、b、c即可 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you are subscribed to this thread.Message ID: @.>

感谢作者的耐心回复，我将进行更多的训练尝试