yuanxiaosc/Entity-Relation-Extraction

WordpieceTokenizer是否有必要呢

YYGe01 opened this issue · 1 comments

作者您好,感谢开源方案和代码,获益很多,我在看sequence_labeling_data_manager.py时,发现生成了bert_tokener_error_log.txt,感觉比较麻烦。

想和您讨论下,中文是否可以不用WordpieceTokenizer呢?直接一个字符一个位置。比如:
原句: "●1981年2月27日",直接按单个字符切分成:['●', '1', '9', '8', '1', '年', '2', '月', '2', '7', '日']
不知道是否可行,会有什么缺陷呢,谢谢!

你说的是方法是可行的,只要保证序列标注任务的输入长度和输出长度一致即可。本代码为了简单使用了bert中自带的分词(字)器tokenization,也引入了一些不正确的切分结果,把这些不正确切分记录在了bert_tokener_error_log.txt,其实这样浪费了一些样本。