fastnlp/CPT

中文分词的数据问题

Closed this issue · 0 comments

您好,非常感谢您的开源代码!

请问中文分词的数据需要处理成什么样子呢?从SIGHAN上下载的是txt格式的,但是代码里需要的是json格式,我也没有在README里找到样例数据。您可以提供一下处理好之后的数据,或者数据预处理的代码吗?

十分感谢~