GuangtaoLyu/FETNet

预测时,是否对输入图像的尺寸有要求

Closed this issue · 2 comments

非常好的项目,终于有个端到端的方法进行文字擦除了,预测时省去了文本检测以及mask的构造,但是由于我不是CV方向的,所以有些简单的问题并不清楚,希望能够得到解答。

  1. 我使用提供的权重进行预测时,经过多次测试发现,输入图像的高宽必须满足2的n次方,例如128/256/512等这些长度,否则会报错,请问这是模型设计就是如此,还是存在bug。
  2. 如果我要自己训练模型,是不是只需要论文中如下图的a、b、c即可
    image

1.第一个不是bug,主要是cv里面的下采样一般都是2的倍数。如果你的图像没有处理成2的倍数,比如是127,会有取整 一般好像是向下取整,再上采样时维度就对不上了。所以你需要在输入的时候,通过padding或者resize的方式把图片处理成2的倍数,我是在256上训练的,所以最好处理成256。当然你也可以根据需要处理成任意的2的倍数都行。 2.是的,只需要原图,擦除后的图片和mask就行。          如果你只是想擦除文字,只需要原图和擦出后的图片就行。网络可以是任意的cnn或者transformer网络。只需要把输出处理成你想要的格式。可以省去获取文字mask的步骤。 如果我解释的不清楚,或者有别的问题,可以随时发邮件问我。 Guangtao Lyu @.***  

------------------ 原始邮件 ------------------ 发件人: "GuangtaoLyu/FETNet" @.>; 发送时间: 2023年8月8日(星期二) 下午5:02 @.>; @.>; 主题: [GuangtaoLyu/FETNet] 预测时,是否对输入图像的尺寸有要求 (Issue #2) 非常好的项目,终于有个端到端的方法进行文字擦除了,预测时省去了文本检测以及mask的构造,但是由于我不是CV方向的,所以有些简单的问题并不清楚,希望能够得到解答。 我使用提供的权重进行预测时,经过多次测试发现,输入图像的高宽必须满足2的n次方,例如128/256/512等这些长度,否则会报错,请问这是模型设计就是如此,还是存在bug。 如果我要自己训练模型,是不是只需要论文中如下图的a、b、c即可 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you are subscribed to this thread.Message ID: @.>

感谢作者的耐心回复,我将进行更多的训练尝试