zhezhaoa/ngram2vec

SGNS中在 Context 中添加汉字特征

PuddingCoder opened this issue · 1 comments

Hi,感谢贵组开源了ngram2vec工具~

我从CA8论文中了解到Context中添加ngram+char+word的embedding在中文语料中效果很好。
我想要训练自己语料库的SGNS ,context为ngram+char+word,ngrm2vec工具包已经实现了context中添加了ngram,请问如果要在context中添加char特征需要做哪些工作呢?

期待您的回复。

您好,得益于ngram2vec解耦的设计,加一个特征只需要在line2feature.py文件中加一个函数,其他的都不需要变动。这个文件里面已经加了不少的特征,你可以看一下这个文件。我未来几个月会进一步完善,能不需要改代码,很容易的j就可以使用不同的上下文特征或者特征的组合。