下载完数据集应该怎么预处理

Question

下载完数据集应该怎么预处理

Closed this issue a year ago · 2 comments

ReverseSystem001 commented a year ago

首先，感谢作者分享，有几个问题请教一下
看你知乎说 “下载完之后，对其中的数据进行数据清洗，去除一些空行等” 这个等字......
你是只做了去除空行操作吗？没有把书本知识512或者2048的形式切成一行行的训练sample吗

Answer 1 · 2023-06-30T10:45:46.000Z

@ReverseSystem001 你好，欢迎提问，我没有在知乎上讲过这个repo，好奇你讲的清洗流程是哪篇文章。

书籍内容清洗不在这个仓库的工作范围，但是我有尝试过做文本清洗。为了降低数据集行文风格复杂程度，去除不以标点符号结尾的行，这个策略会去除章回标题、药方、一些古文列表的内容。另外，针对文本中出现的中文乱码，有一个筛除操作。

我做了一个数据集，可以用来训练模型，huggingface数据集仓库链接，huggingface的数据集可以通过map操作切割samples，你可以参考这个实现。

Answer 2 · 2023-06-30T11:10:31.000Z

好的，谢谢。我回去瞅瞅

…

---原始邮件--- 发件人: "Jianbin ***@***.***> 发送时间: 2023年6月30日(周五) 晚上6:46 收件人: ***@***.***>; 抄送: ***@***.******@***.***>; 主题: Re: [shjwudp/shu] 下载完数据集应该怎么预处理 (Issue #2) @ReverseSystem001 你好，欢迎提问，我没有在知乎上讲过这个repo，好奇你讲的清洗流程是哪篇文章。书籍内容清洗不在这个仓库的工作范围，但是我有尝试过做文本清洗。为了降低数据集行文风格复杂程度，去除不以标点符号结尾的行，这个策略会去除章回标题、药方、一些古文列表的内容。另外，针对文本中出现的中文乱码，有一个筛除操作。我做了一个数据集，可以用来训练模型，huggingface数据集仓库链接，huggingface的数据集可以通过map操作切割samples，你可以参考这个实现。 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you were mentioned.Message ID: ***@***.***>