预处理汉字读音频率的建议
Closed this issue · 2 comments
czou40 commented
Rime 词库中各汉字读音若无指定频率则默认为最常见读音,比如“中”的去声读法频率为10%,而最常见的平声在词库中没有指定频率。在预处理词库的时候DEFAULT_FREQ 设为 0.07 有些许不妥,建议改为0.5以上(否则转换”**“等词时会得到错误读音)。
sgalal commented
感谢提出!目前来说将 DEFAULT_FREQ
改为 0.5 以上确实是可行的解决方法。
不过就总体架构而言,这应该是 rime-middle-chinese 的 bug。
Rime 词库中各汉字读音若无指定频率则默认为最常见读音。
不是这样的。如果某个读音的频率高于 5%,则一定会参与造词(以前在 rime 文档中看过,可惜现在找不到了)。例如,现在无论输入 triung k
还是 triungh k
,候选第一位都会出现「**」,所以说这是 rime-middle-chinese 的 bug。
此时有两种解决方法:
- 将一个音的频率调整到 5% 以下,令其不参与造词。例如将「中」的去声读法调整到 5% 以下,那样
triungh k
就不会出现「**」。(不过实际操作时还是要根据实际词频) - 在词库中明确指定「**」的读音为 triung kuok。
目前版本的 rime-middle-chinese 收词数量很少,因此目前利用 rime-middle-chinese 进行转换时的准确度也不会很高。polyhedron 说词库只收录了有多音字的常见词语,这样可以满足日常打字需求,但用作转换器时则不太合适。为此,计划是利用为 CEDICT 词条标注中古汉语读音这一项目的成果,如果这一项目完成,则可以将更多词语加入词库中,提高转换的准确率。
czou40 commented
感谢你的解答!