ljynlp/W2NER

中文数据集的格式问题

lzf00 opened this issue · 3 comments

lzf00 commented

请问中文数据集的中的sentence这个数据都需要句号“。”作为结尾吗,数据集的type类型多少个比较好,然后就是一个句子中多长比合适,一个句子中标记几个实体比较合适,谢谢(可以以您的数据集resume-zh的分析为例)

句子的长度不受限制,但是越长所需要的显存就越大,其他的数据要求可以根据自己的需求进行标注。

lzf00 commented

好的,那每个sentence都需要句号“。”作为结尾吗,这个句号会被当做句子的分隔符cls吗

句号并不是必须,代码中也没有特殊处理过,都是作为普通token对待的