z814081807/DeepNER

生成BIO标注数据集

Smile-L-up opened this issue · 1 comments

请教您一下,怎样生成BIO数据集。您的代码是转化后直接输入到Bert的。您是采取截断方式,也就是大于最大长度就直接截断了吗?不知您是否可以开源一个生成类似BIO标注数据的代码。

请教您一下,怎样生成BIO数据集。您的代码是转化后直接输入到Bert的。您是采取截断方式,也就是大于最大长度就直接截断了吗?不知您是否可以开源一个生成类似BIO标注数据的代码。

  1. 这份代码生成的是BIOES数据,省略了生成BIOES标注数据到某个文件这一步,直接读入bert,如若需要,在生成数据后,将数据写入一个文件即可,可以debug看一下。
  2. 这个不是截断,NER截断会损失标注信息。注意看readme文件,是把大于512的文本分成若干个小于512的段落分别处理的,再设置最大长度512,就不会截断了。