一个颜文字 (kaomoji) 词库,同时可以生成适用于 Rime 输入法 的词库。
A collection of kaomoji expressions, also capable of generating dictionaries suitable for the Rime input method.
以下是对主要目录结构的说明:
rime_kaomoji_dict
├─ data
│ ├─ A_kaomoji_dict_data.txt:A岛匿名版部分颜文字素材(无编码信息)
│ ├─ Temreg_dict_data.txt:百度贴吧吧友Temreg分享的颜文字素材
│ ├─ custom_phrase_dict_data.txt: girhub kaos 项目中的颜文字素材
│ ├─ lmeee_dict_data.txt:拉米工具颜文字素材
│ └─ sougou_dict_data.txt:搜狗颜文字与A岛匿名版部分颜文字(有编码信息)素材
└─ main.py:处理颜文字素材的脚本
本项目不仅可以用于生成适用于 Rime 输入法 的词库,也可以用于生成其他输入法的词库。
同时您还可以将其视为一般颜文字词库,用于网络表情 NLP ,颜文字识别,颜文字表情实体识别、属性检测、新颜发现等。
一般情况下如果您没有开发需求,您可以直接前往 releases 下载最新版本的词库文件,直接使用即可。
解压后你会得到两个适用于 Rime 输入法的词库文件
kaomoji_kmj.dict.yaml
kaomoji_pinyin.dict.yaml
其中 kaomoji_kmj.dict.yaml
是颜文字词库,kaomoji_pinyin.dict.yaml
是颜文字拼音词库。
它们的区别在于:
kaomoji_kmj.dict.yaml
:固定将所有颜文字 拼音部份(即文字对应的编码) 设置为kmj
kaomoji_pinyin.dict.yaml
:则是正常使用 Pypinyin 生成所有颜文字对应的中文的拼音(可选双拼)作为文字对应的编码
二者互不冲突,您可以根据自己的喜好选择其一或全部将其放入 Rime 输入法的用户文件夹中并做对应的调用即可。
同时您还可以自行从项目仓库源码构建词库
git clone https://github.com/aoguai/rime_kaomoji_dict.git
cd rime_kaomoji_dict
pip install -r requirements.txt
python main.py
完成后,默认会在data 目录中生成
all_output_result_kmj.txt
all_output_result_pinyin.txt
与 kaomoji_kmj.dict.yaml
和 kaomoji_pinyin.dict.yaml
对应
同时,从本仓库源码构建时,您可以自行选择使用哪些颜文字素材,只需在 main.py
中修改 input_filename_list
变量即可。
同时你还可以自定义导出的词库的格式等,具体请自行查看 main.py
中的 process_and_save_combined_kaomoji
函数部分代码。
切换至 shuangpin 分支
pip install Pinyin2Hanzi
python pydict2spdict.py
具体使用方法请参考 shuangpin 分支
kaos/dict.txt at master · tisyang/kaos
感谢贡献者们对本项目作出的贡献:
xtmu 💻🐛🚧 |
此存储库遵循 MIT 开源协议,请务必理解。
我们严禁所有通过本程序违反任何国家法律的行为,请在法律范围内使用本程序。
默认情况下,使用此项目将被视为您同意我们的规则。请务必遵守道德和法律标准。
如果您不遵守,您将对后果负责,作者将不承担任何责任!