怎么训练中文word+character+ngram 的Context特征
sherrytong opened this issue · 4 comments
sherrytong commented
你好,最近在用ngram2vec工具,有点困惑,要得到word+character+ngram这种context Features,我的语料要怎么处理呢?分词还是分字?
如果是分词的话,脚本里要怎么传参数才能得到character特征呢? 我在代码里看没有找到这部分内容
yongzhuo commented
同问,想要训练word+character+ngram。窗口为5的时候,character或ngram怎么选择,是直接取word to word里面的character么,还是只取前后5个character。
light0415 commented
同问,求详细解释
sunnychou0330 commented
sunnychou0330 commented
@sherrytong 同问楼主,这一块有没有什么进展,也想要训练word+character+ngram,想问一下输入应该是怎么样的,是<word\character\ngram>三者的concatenate()(拼接)吗?还是什么?感觉不太清楚具体的输入。不像word2vec使用gensim,训练word embedding 输入分词好后的语料,这里一直很迷糊!希望给解答