怎么训练中文word+character+ngram 的Context特征

Question

怎么训练中文word+character+ngram 的Context特征

sherrytong opened this issue 6 years ago · 4 comments

你好，最近在用ngram2vec工具，有点困惑，要得到word+character+ngram这种context Features，我的语料要怎么处理呢？分词还是分字？
如果是分词的话，脚本里要怎么传参数才能得到character特征呢？我在代码里看没有找到这部分内容

Answer 1 · 2019-01-22T06:31:13.000Z

同问，想要训练word+character+ngram。窗口为5的时候，character或ngram怎么选择，是直接取word to word里面的character么，还是只取前后5个character。

Answer 2 · 2019-01-22T12:45:03.000Z

同问，求详细解释

Answer 3 · 2019-02-16T09:40:30.000Z

您好，我想请问作者一共有两个问题：
1，关于ngram2vec:learning Improved word。。。这篇论文的公式，文章中标注的是公式（2），

这个里面的参数可以详细说明一下吗？特别是E（）这一块
2，关于模型训练，可以对模型进行一个宏观的说明吗？输入，输出，中间的层数（卷积，池化，softmax）之类的！
非常感谢

Answer 4 · 2019-02-19T13:14:03.000Z

@sherrytong 同问楼主，这一块有没有什么进展，也想要训练word+character+ngram，想问一下输入应该是怎么样的，是<word\character\ngram>三者的concatenate()（拼接）吗？还是什么？感觉不太清楚具体的输入。不像word2vec使用gensim，训练word embedding 输入分词好后的语料，这里一直很迷糊！希望给解答