WordpieceTokenizer是否有必要呢

Question

WordpieceTokenizer是否有必要呢

YYGe01 opened this issue 4 years ago · 1 comments

作者您好，感谢开源方案和代码，获益很多，我在看sequence_labeling_data_manager.py时，发现生成了bert_tokener_error_log.txt，感觉比较麻烦。

想和您讨论下，中文是否可以不用WordpieceTokenizer呢？直接一个字符一个位置。比如：
原句: "●1981年2月27日"，直接按单个字符切分成：['●', '1', '9', '8', '1', '年', '2', '月', '2', '7', '日']
不知道是否可行，会有什么缺陷呢，谢谢！

Answer 1 · 2021-01-16T15:26:13.000Z

你说的是方法是可行的，只要保证序列标注任务的输入长度和输出长度一致即可。本代码为了简单使用了bert中自带的分词（字）器tokenization，也引入了一些不正确的切分结果，把这些不正确切分记录在了bert_tokener_error_log.txt，其实这样浪费了一些样本。