jar包中的CustomDictionary.txt和data-for-1.7.5.zip中的CustomDictionary.txt不一致
zhujiawen12345 opened this issue · 2 comments
Describe the bug
jar包中的CustomDictionary.txt和data-for-1.7.5.zip中的CustomDictionary.txt不一致
Code to reproduce the issue
HanLP.Config.enableDebug();
String text = "血洗***广场";
System.out.println(HanLP.segment(text));
CoreDictionary.Attribute attribute = CustomDictionary.get("***广场");
System.out.println(attribute);
Describe the current behavior
对‘血洗***广场’进行分词,得到结果是[血洗/v, ***广场/nz],经debug发现是自定义词典中存在‘***广场 nz 36’,这里为啥jar包中的CustomDictionary.txt和data-for-1.7.5.zip中的CustomDictionary.txt不一致?
Expected behavior
预期分词结果:[血洗/v, ***/ns, 广场/n]
System information
- window11
- HanLP version:portable-1.8.4
Other info / logs
粗分词网:
0:[ ]
1:[血, 血洗]
2:[洗]
3:[天, 天安, ***]
4:[安]
5:[门]
6:[广, 广场]
7:[场]
8:[ ]
粗分结果[血洗/v, ***广场/nz]
人名角色观察:[ K 1 A 1 ][血洗 A 20833310 ][***广场 A 20833310 ][ K 1 A 1 ]
人名角色标注:[ /K ,血洗/A ,***广场/A , /A]
[血洗/v, ***广场/nz]
- I've completed this form and searched the web for solutions.
设计上没有commitment去让portable的数据与非portable的一模一样。
我看了portal分支源码中的数据跟jar包中的数据也不一致, portal分支的CustomDictionary.txt中没有‘***广场’这个词,实际jar分词结果显示CustomDictionary.txt中存在这个词