scel2txt

搜狗细胞词库转鼠须管（Rime）词库，使用 Python3 实现

使用

运行下面命令会根据config.josn，从搜狗官方词库网站自动下载的 *.scel 文件合并输出到out文件中

python3 scel2txt.py abc
# 生产luna_pinyin.abc.dict.yaml文件，不传默认luna_pinyin.sogou.dict.yaml

按照一定格式保存的 Unicode 编码文件，其中每两个字节表示一个字符（中文汉字或者英文字母）。

主要包括两部分:

全局拼音表，在文件中的偏移值是 0x1540+4, 格式为 (py_idx, py_len, py_str)
- py_idx: 两个字节的整数，代表这个拼音的索引
- py_len: 两个字节的整数，拼音的字节长度
- py_str: 当前的拼音，每个字符两个字节，总长 py_len
汉语词组表，在文件中的偏移值是 0x2628 或 0x26c4, 格式为 (word_count, py_idx_count, py_idx_data, (word_len, word_str, ext_len, ext){word_count})，其中 (word_len, word, ext_len, ext){word_count} 一共重复 word_count 次, 表示拼音的相同的词一共有 word_count 个
- word_count: 两个字节的整数，同音词数量
- py_idx_count: 两个字节的整数，拼音的索引个数
- py_idx_data: 两个字节表示一个整数，每个整数代表一个拼音的索引，拼音索引数
- word_len:两个字节的整数，代表中文词组字节数长度
- word_str: 汉语词组，每个中文汉字两个字节，总长度 word_len
- ext_len: 两个字节的整数，可能代表扩展信息的长度，好像都是 10
- ext: 扩展信息，一共 10 个字节，前两个字节是一个整数(不知道是不是词频)，后八个字节全是 0，ext_len 和 ext 一共 12 个字节