GBK计数问题
lihaoyu1234 opened this issue · 5 comments
lihaoyu1234 commented
从0.20版开始,软件中GBK应统计的汉字总数由20923变成了20924(多了一个汉字「〇」),但是对电脑上的字体统计发现实际统计数目还是20923(即对完整支持GBK的字体统计结果都是20923)。
查看 count_char.py 源码发现其中对GBK的计数代码(本质上)并没有变化(即实际上并未统计「〇」字):
if encoding == "gbk":
if row in char_range(deci("4E00"), deci("9FA5")) or row in gbk_compatibility_deci_list:
cjk_char_count[encoding]+=1
continue
希望可以修复一下。
NightFurySL2001 commented
确认为bug,待 Unicode 15.1 更新扩展 I 区后一起修复。非常感谢提报。
lihaoyu1234 commented
请问这个项目现在还没有更新吗?
NightFurySL2001 commented
待最近有时间将会更新。
NightFurySL2001 commented
0.21 版已解决。
lihaoyu1234 commented
请问 CJK Ext. I 在 count_char.py 中没加吗?
另外好像目前总汉字数由 87928 增加到 97681 了(CJK URO + Ext. A~I + 兼容区 12 字 + 〇)。(如果不算〇的话是 97680)