NightFurySL2001/CJK-character-count

GBK计数问题

lihaoyu1234 opened this issue · 5 comments

从0.20版开始,软件中GBK应统计的汉字总数由20923变成了20924(多了一个汉字「〇」),但是对电脑上的字体统计发现实际统计数目还是20923(即对完整支持GBK的字体统计结果都是20923)。

查看 count_char.py 源码发现其中对GBK的计数代码(本质上)并没有变化(即实际上并未统计「〇」字):

if encoding == "gbk":
    if row in char_range(deci("4E00"), deci("9FA5")) or row in gbk_compatibility_deci_list:
        cjk_char_count[encoding]+=1
    continue

希望可以修复一下。

确认为bug,待 Unicode 15.1 更新扩展 I 区后一起修复。非常感谢提报。

请问这个项目现在还没有更新吗?

待最近有时间将会更新。

0.21 版已解决。

请问 CJK Ext. I 在 count_char.py 中没加吗?

另外好像目前总汉字数由 87928 增加到 97681 了(CJK URO + Ext. A~I + 兼容区 12 字 + 〇)。(如果不算〇的话是 97680)