/rime_kaomoji_dict

一个颜文字 (kaomoji) 词库,同时可以生成适用 于Rime 的词库。A collection of kaomoji expressions, also capable of generating dictionaries suitable for the Rime.

Primary LanguagePythonMIT LicenseMIT

rime_kaomoji_dict

一个颜文字 (kaomoji) 词库,同时可以生成适用于 Rime 输入法 的词库。

A collection of kaomoji expressions, also capable of generating dictionaries suitable for the Rime input method.

目录结构

以下是对主要目录结构的说明:

rime_kaomoji_dict
├─ data
│    ├─ A_kaomoji_dict_data.txt:A岛匿名版部分颜文字素材(无编码信息)
│    ├─ Temreg_dict_data.txt:百度贴吧吧友Temreg分享的颜文字素材
│    ├─ custom_phrase_dict_data.txt: girhub kaos 项目中的颜文字素材
│    ├─ lmeee_dict_data.txt:拉米工具颜文字素材
│    └─ sougou_dict_data.txt:搜狗颜文字与A岛匿名版部分颜文字(有编码信息)素材
└─ main.py:处理颜文字素材的脚本

安装与使用

本项目不仅可以用于生成适用于 Rime 输入法 的词库,也可以用于生成其他输入法的词库。

同时您还可以将其视为一般颜文字词库,用于网络表情 NLP ,颜文字识别,颜文字表情实体识别、属性检测、新颜发现等。

生成适用于 Rime 输入法的词库

一般情况下如果您没有开发需求,您可以直接前往 releases 下载最新版本的词库文件,直接使用即可。

解压后你会得到两个适用于 Rime 输入法的词库文件

kaomoji_kmj.dict.yaml
kaomoji_pinyin.dict.yaml

其中 kaomoji_kmj.dict.yaml 是颜文字词库,kaomoji_pinyin.dict.yaml 是颜文字拼音词库。

它们的区别在于:

kaomoji_kmj.dict.yaml:固定将所有颜文字 拼音部份(即文字对应的编码) 设置为kmj

kaomoji_pinyin.dict.yaml :则是正常使用 Pypinyin 生成所有颜文字对应的中文的拼音(可选双拼)作为文字对应的编码

二者互不冲突,您可以根据自己的喜好选择其一或全部将其放入 Rime 输入法的用户文件夹中并做对应的调用即可。

从项目仓库源码构建

同时您还可以自行从项目仓库源码构建词库

全拼词库

git clone https://github.com/aoguai/rime_kaomoji_dict.git
cd rime_kaomoji_dict
pip install -r requirements.txt
python main.py

完成后,默认会在data 目录中生成

all_output_result_kmj.txt
all_output_result_pinyin.txt

kaomoji_kmj.dict.yamlkaomoji_pinyin.dict.yaml对应

同时,从本仓库源码构建时,您可以自行选择使用哪些颜文字素材,只需在 main.py 中修改 input_filename_list 变量即可。

同时你还可以自定义导出的词库的格式等,具体请自行查看 main.py 中的 process_and_save_combined_kaomoji 函数部分代码。

双拼词库

切换至 shuangpin 分支

pip install Pinyin2Hanzi
python pydict2spdict.py

具体使用方法请参考 shuangpin 分支

鸣谢

数据原始来源

X岛匿名版

颜文字大全 - 拉米工具

求助小狼毫怎么输入颜文字。【rime吧】_百度贴吧

kaos/dict.txt at master · tisyang/kaos

搜狗颜文字

贡献者们

感谢贡献者们对本项目作出的贡献:

Well404
xtmu

💻🐛🚧

免责声明

此存储库遵循 MIT 开源协议,请务必理解。

我们严禁所有通过本程序违反任何国家法律的行为,请在法律范围内使用本程序。

默认情况下,使用此项目将被视为您同意我们的规则。请务必遵守道德和法律标准。

如果您不遵守,您将对后果负责,作者将不承担任何责任!