/rime-dict

简体中文词库包含词频+注音;特殊符号词库包含希腊字母,部分数学符号,Emoji表情,序号等.

GNU General Public License v3.0GPL-3.0

RIME简体中文词库(词频+注音)+特殊符号(希腊字母,部分Emoji表情及数学符号)

corpuscharacterlist.dict.yaml:现代汉语语料库汉字频率表
语料规模:2000万字,只列入出现次数大于5次的字。
汉字频率表没给出多音字在不同读音下的频率,以上注音选取多音字较常见读音
corpuswordlist.dict.yaml:现代汉语语料库词语频率表
语料规模:2000万字,只列入出现次数大于50次的词。
数据来源:语料库在线网站

sogouw.dict.yaml:互联网词库(SogouW)
互联网词库(SogouW)来自于对SOGOU搜索引擎所索引到的中文互联网语料的统计分析,统计所进行的时间是2006年10月,涉及到的互联网语料规模在1亿页面以上。统计出的词条数约为15万条高频词,标出了这部分词条的词频信息。
数据来源:搜狗实验室

示例:
我们 wo men 26823
一个 yi ge 24807
与 yu 23823
从 cong 23749

polyphones.dict.yaml:用以解决汉字频率表中的多音字注音的问题
因汉字频率表中并无多音字不同读音下的频率,故此表无汉字出现频率
数据来源:PolyphoneDisambiguation

示例:
乐 le
乐 yue
乘 cheng
乘 sheng

symbols.dict.yaml:部分数学符号、Emoji表情及希腊字母

拼音输出特殊符号(如☑,α,Ⅷ,⑧,😀等)

Emoji数据来源:fcitx-emoji

示例:
✓ gou
✖ cha
∫ jifen
∞ wuxian
α alpha
β beta
😂 xiaoku
😃 haha
Ⅶ qi
⑦ qi