z814081807/DeepNER

原始数据的形式

Fan-SJ opened this issue · 3 comments

从阿里那里拿到的原始数据格式已经变成这样的了。想知道一开始的数据格式形式。
image

数据

和这个是一样的,只不过原始的放到txt文件里了。

(注意:需人工将 vocab.txt 中两个 [unused] 转换成 [INV] 和 [BLANK])
是指使用的预训练模型都要?从网盘下载的UER已经换了,别的要人工换一下?

(注意:需人工将 vocab.txt 中两个 [unused] 转换成 [INV] 和 [BLANK])
是指使用的预训练模型都要?从网盘下载的UER已经换了,别的要人工换一下?

是的,因为数据处理的时候自定义tokenizer会把空格用[BLANK]表示。 (NER需要自定义tokenizer,否则标注会对不齐)