下载完数据集应该怎么预处理
Closed this issue · 2 comments
ReverseSystem001 commented
首先,感谢作者分享,有几个问题请教一下
看你知乎说 “下载完之后,对其中的数据进行数据清洗,去除一些空行等” 这个等字......
你是只做了去除空行操作吗? 没有把书本知识512或者2048的形式切成一行行的训练sample吗
shjwudp commented
@ReverseSystem001 你好,欢迎提问,我没有在知乎上讲过这个repo,好奇你讲的清洗流程是哪篇文章。
书籍内容清洗不在这个仓库的工作范围,但是我有尝试过做文本清洗。为了降低数据集行文风格复杂程度,去除不以标点符号结尾的行,这个策略会去除章回标题、药方、一些古文列表的内容。另外,针对文本中出现的中文乱码,有一个筛除操作。
我做了一个数据集,可以用来训练模型,huggingface数据集仓库链接,huggingface的数据集可以通过map操作切割samples,你可以参考这个实现。
ReverseSystem001 commented
好的,谢谢。我回去瞅瞅
…---原始邮件---
发件人: "Jianbin ***@***.***>
发送时间: 2023年6月30日(周五) 晚上6:46
收件人: ***@***.***>;
抄送: ***@***.******@***.***>;
主题: Re: [shjwudp/shu] 下载完数据集应该怎么预处理 (Issue #2)
@ReverseSystem001 你好,欢迎提问,我没有在知乎上讲过这个repo,好奇你讲的清洗流程是哪篇文章。
书籍内容清洗不在这个仓库的工作范围,但是我有尝试过做文本清洗。为了降低数据集行文风格复杂程度,去除不以标点符号结尾的行,这个策略会去除章回标题、药方、一些古文列表的内容。另外,针对文本中出现的中文乱码,有一个筛除操作。
我做了一个数据集,可以用来训练模型,huggingface数据集仓库链接,huggingface的数据集可以通过map操作切割samples,你可以参考这个实现。
—
Reply to this email directly, view it on GitHub, or unsubscribe.
You are receiving this because you were mentioned.Message ID: ***@***.***>