对judou.py有关编码的补丁
Opened this issue · 2 comments
GoogleCodeExporter commented
问题描述:
目前的mm_seg, atom_seg, ch_seg,rmm_seg等函数内部,存在多个进行编码转换的地方,使得编码处理位置分散,一旦代码改动,极易出错。同时,几处代码并没有使用全局的ENCODING变量,而是直接使用'utf-8'制定编码,
问题解决:
附件中的patch将所有函数修改为只支持unicode内码,利用create_local_seg()生成支持转吗的分词函数。函数接口与当前测试用例兼容。
补丁方法:judou/目录下执行patch -p1 < path_to/encoding-fix-r43.patch
Original issue reported on code.google.com by gnap...@gmail.com
on 18 Oct 2010 at 9:20
Attachments:
GoogleCodeExporter commented
gnap.an你好,感谢patch,你的邮箱是?我把你直接加入member
Original comment by twinsant
on 18 Oct 2010 at 9:31
GoogleCodeExporter commented
在这里重回一下吧,Groups被墙了不好上。我邮箱是:gnap.an AT
gmail.com
Original comment by gnap...@gmail.com
on 19 Oct 2010 at 7:16