daizw/judou

对judou.py有关编码的补丁

Opened this issue · 2 comments

问题描述:
       目前的mm_seg, atom_seg, ch_seg,rmm_seg等函数内部,存在多个进行编码转换的地方,使得编码处理位置分散,一旦代码改动,极易出错。同时,几处代码并没有使用全局的ENCODING变量,而是直接使用'utf-8'制定编码,
问题解决:
       附件中的patch将所有函数修改为只支持unicode内码,利用create_local_seg()生成支持转吗的分词函数。函数接口与当前测试用例兼容。
补丁方法:judou/目录下执行patch -p1 < path_to/encoding-fix-r43.patch

Original issue reported on code.google.com by gnap...@gmail.com on 18 Oct 2010 at 9:20

Attachments:

gnap.an你好,感谢patch,你的邮箱是?我把你直接加入member

Original comment by twinsant on 18 Oct 2010 at 9:31

在这里重回一下吧,Groups被墙了不好上。我邮箱是:gnap.an AT 
gmail.com

Original comment by gnap...@gmail.com on 19 Oct 2010 at 7:16