nk2028/ToMiddleChinese

预处理汉字读音频率的建议

Closed this issue · 2 comments

Rime 词库中各汉字读音若无指定频率则默认为最常见读音,比如“中”的去声读法频率为10%,而最常见的平声在词库中没有指定频率。在预处理词库的时候DEFAULT_FREQ 设为 0.07 有些许不妥,建议改为0.5以上(否则转换”**“等词时会得到错误读音)。

感谢提出!目前来说将 DEFAULT_FREQ 改为 0.5 以上确实是可行的解决方法。


不过就总体架构而言,这应该是 rime-middle-chinese 的 bug。

Rime 词库中各汉字读音若无指定频率则默认为最常见读音。

不是这样的。如果某个读音的频率高于 5%,则一定会参与造词(以前在 rime 文档中看过,可惜现在找不到了)。例如,现在无论输入 triung k 还是 triungh k,候选第一位都会出现「**」,所以说这是 rime-middle-chinese 的 bug。

此时有两种解决方法:

  1. 将一个音的频率调整到 5% 以下,令其不参与造词。例如将「中」的去声读法调整到 5% 以下,那样 triungh k 就不会出现「**」。(不过实际操作时还是要根据实际词频)
  2. 在词库中明确指定「**」的读音为 triung kuok。

目前版本的 rime-middle-chinese 收词数量很少,因此目前利用 rime-middle-chinese 进行转换时的准确度也不会很高。polyhedron 说词库只收录了有多音字常见词语,这样可以满足日常打字需求,但用作转换器时则不太合适。为此,计划是利用为 CEDICT 词条标注中古汉语读音这一项目的成果,如果这一项目完成,则可以将更多词语加入词库中,提高转换的准确率。

感谢你的解答!