char_meta.txt 问题
lianNice opened this issue · 11 comments
您好,感谢您开源您的工作,非常棒,我有个问题,char_meta.txt 这个文件里面是需要自己提前准备吗?想问下怎么准备呢?看你们给的数据链接里面没有这些?
您好,感谢您开源您的工作,非常棒,我有个问题,char_meta.txt 这个文件里面是需要自己提前准备吗?想问下怎么准备呢?看你们给的数据链接里面没有这些?
您好,如README所述,char_meta.txt来源于README中有链接的两个公开数据库。需要自己转换成示例char_meta.txt的格式。
您好,字形预处理部分stroke-level IDS是如何做到的?下载的ids.txt,像馬,人都没有按照笔画拆开,我做了文件中出现字的递归,但是文件中不知道如何实现笔画的树递归?也就是如何把下载的ids.txt转化成您说的笔画级别的stroke-level IDS?谢谢。
您好,字形预处理部分stroke-level IDS是如何做到的?下载的ids.txt,像馬,人都没有按照笔画拆开,我做了文件中出现字的递归,但是文件中不知道如何实现笔画的树递归?也就是如何把下载的ids.txt转化成您说的笔画级别的stroke-level IDS?谢谢。
先把所有的字分解成文件中出现过的字,到不能再分解为止。然后,参考这个issue的回答即可 #5 (comment)
您好,是否方便提供一份完整的char_meta.txt 谢谢 @eugene-yh
您好,字形预处理部分stroke-level IDS是如何做到的?下载的ids.txt,像馬,人都没有按照笔画拆开,我做了文件中出现字的递归,但是文件中不知道如何实现笔画的树递归?也就是如何把下载的ids.txt转化成您说的笔画级别的stroke-level IDS?谢谢。
先把所有的字分解成文件中出现过的字,到不能再分解为止。然后,参考这个issue的回答即可 #5 (comment)
是不是把复杂的字拆解成简单的字,简单字拆解成部首偏旁,部首偏旁拆解成笔画?还是说每个字符都需要拆解成笔画级IDS?具体是有什么工具生成其笔画和结构图的呀?
您好,字形预处理部分stroke-level IDS是如何做到的?下载的ids.txt,像馬,人都没有按照笔画拆开,我做了文件中出现字的递归,但是文件中不知道如何实现笔画的树递归?也就是如何把下载的ids.txt转化成您说的笔画级别的stroke-level IDS?谢谢。
先把所有的字分解成文件中出现过的字,到不能再分解为止。然后,参考这个issue的回答即可 #5 (comment)
抱歉,再打扰您一下,还是没有计划发布char_meta.txt吗?
还有三个问题:
- ids.txt文件中有些对应多个比划的如何处理,以及笔划中[G|U|K等]、圆圈1-20如何处理?
- makemeahanzi项目中的dictionary.txt大多和idx.txt一样,并非笔划级别的,所以您如何使用的;
- cjklib项目中,输出的是笔划,没有左右或上下结构(测试了人字,只有两个输出,不是很确定有没有结构),这个是如何用的?
太麻烦您了。鞠躬感谢。
您好,字形预处理部分stroke-level IDS是如何做到的?下载的ids.txt,像馬,人都没有按照笔画拆开,我做了文件中出现字的递归,但是文件中不知道如何实现笔画的树递归?也就是如何把下载的ids.txt转化成您说的笔画级别的stroke-level IDS?谢谢。
先把所有的字分解成文件中出现过的字,到不能再分解为止。然后,参考这个issue的回答即可 #5 (comment)
抱歉,再打扰您一下,还是没有计划发布char_meta.txt吗?
还有三个问题:
- ids.txt文件中有些对应多个比划的如何处理,以及笔划中[G|U|K等]、圆圈1-20如何处理?
- makemeahanzi项目中的dictionary.txt大多和idx.txt一样,并非笔划级别的,所以您如何使用的;
- cjklib项目中,输出的是笔划,没有左右或上下结构(测试了人字,只有两个输出,不是很确定有没有结构),这个是如何用的?
太麻烦您了。鞠躬感谢。
同问,感觉根据前面issue提到的内容不太好做到复现出char_meta的样例的样子
抱歉 再打扰一下 改了faspell_config中的weights“p,v”的权重,改了char_mate文件路径,测试之后数据的p,r,a没有发生任何变化是什么原因??打扰了,祝好。
同求这个char_meta文件,或者能做出来的可行方案。这个是最后csd的关键啊,论文也反复鼓吹这个特征的重要性。不提供这个char_sim的方案,那么开源就没啥用吧
有没有中文的step by step 生成char_meta.txt的步骤?
折腾了半天弄了一份出来,附代码和说明,希望能帮到各位:
ps:建议作者重构下代码~