训练数据集准备方式咨询

Question

训练数据集准备方式咨询

Closed this issue 6 months ago · 5 comments

Felix0525 commented 6 months ago

作者好，首先感谢开源FETNet。

背景：我想使用FETNet获取去除手写体后的图片。因此需要使用自己的数据集进行训练，目前有两种方式准备数据集。

第一：使用PS工具，将手写体涂抹成白色

第二：打印图片，然后人工手写红色字体，最后扫描。通过不同颜色区分

问题：

这两种数据准备方式的优缺点，哪种方式更适用于FETNet
数据集的数量最少需要达到多少张才足够
有没有更好的数据准备方式推荐

希望能得到回答，不胜感激。

Answer 1 · 2024-03-05T10:21:18.000Z

你好，按我的理解。使用哪种做法，首先看你有什么样的原始数据。如果你能拿到很多正常写过的试卷图片。那可能就得自己ps了。如果你是有空白的试卷，先拍照或者扫码得到空白图片。那你只需要随便找人写写，当做输入图片。算是第二种吧。如果你同时想获得文字的mask区域，那可能需要加一步，原图和写过的图片做差，阈值化。就可以获得mask了。论文里面用到的大概3000张左右吧。我看别人论文里好像也就几百张吧。可能最少准备个1500张吧。

…

---原始邮件--- 发件人: ***@***.***> 发送时间: 2024年3月5日(周二) 下午5:59 收件人: ***@***.***>; 抄送: ***@***.***>; 主题: [GuangtaoLyu/FETNet] 训练数据集准备方式咨询 (Issue #3) 作者好，首先感谢开源FETNet。背景：我想使用FETNet获取去除手写体后的图片。因此需要使用自己的数据集进行训练，目前有两种方式准备数据集。第一：使用PS工具，将手写体涂抹成白色 image.png (view on web) 第二：打印图片，然后人工手写红色字体，最后扫描。通过不同颜色区分 image.png (view on web) 问题：这两种数据准备方式的优缺点，哪种方式更适用于FETNet 数据集的数量最少需要达到多少张才足够有没有更好的数据准备方式推荐希望能得到回答，不胜感激。 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you are subscribed to this thread.Message ID: ***@***.***>

Answer 2 · 2024-03-05T10:33:35.000Z

感谢回答。

描述：如上图，我使用第一种方式准备了数据集进行训练，然后再对训练集中的某一张图片进行推理，得到的结果显示有部分推理得到的区域和标注的区域不一致（左边是训练的标注、右边是推理的结果）。这会是什么原因呢。

Answer 3 · 2024-03-05T10:42:47.000Z

额，没训练好吧

…

---原始邮件--- 发件人: ***@***.***> 发送时间: 2024年3月5日(周二) 晚上6:33 收件人: ***@***.***>; 抄送: "Guangtao Lyu ( 吕光涛 ***@***.******@***.***>; 主题: Re: [GuangtaoLyu/FETNet] 训练数据集准备方式咨询 (Issue #3) 感谢回答。 2024-03-05.182731.png (view on web) 描述：如上图，我使用第一种方式准备了数据集进行训练，然后再对训练集中的某一张图片进行推理，得到的结果显示有部分推理得到的区域和标注的区域不一致（左边是训练的标注、右边是推理的结果）。这会是什么原因呢。 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: ***@***.***>

Answer 4 · 2024-03-05T10:59:27.000Z

是有很多这种情况吗？感觉看起来是没训练好，哪怕在正常的论文中所用的数据集，也会有很多没擦除的。能不能透漏一些细节，比如你用的图片是多大的，大概多少张图片，训练了大概多少个epoch。

…

---原始邮件--- 发件人: ***@***.***> 发送时间: 2024年3月5日(周二) 晚上6:33 收件人: ***@***.***>; 抄送: "Guangtao Lyu ( 吕光涛 ***@***.******@***.***>; 主题: Re: [GuangtaoLyu/FETNet] 训练数据集准备方式咨询 (Issue #3) 感谢回答。 2024-03-05.182731.png (view on web) 描述：如上图，我使用第一种方式准备了数据集进行训练，然后再对训练集中的某一张图片进行推理，得到的结果显示有部分推理得到的区域和标注的区域不一致（左边是训练的标注、右边是推理的结果）。这会是什么原因呢。 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: ***@***.***>

Answer 5 · 2024-03-05T11:03:27.000Z

好的，稍后我发到您的邮箱。我先关闭此issue。