有一些关于训练和结果的问题，麻烦作者，您能解答一下

Question

有一些关于训练和结果的问题，麻烦作者，您能解答一下

Opened this issue 4 years ago · 1 comments

@ray1007 作者，您好，我读过了您的论文，关于整个的训练过程，我的理解是
（1）先找好语料，构建位图，训练convAE，抽取出 glyphs features
（2）通过上述的 glyphs，去增强word representation的表达

我有如下疑问：
（1）我看github文件中，您只放出了char_glyph_feat.txt文件，那使用char_glyph_feat增强得到的词向量/子向量，是需要我们自己根据我们自己的数据集去训练吗
（2）我看您使用的是繁体中文得到的char_glyph_feat，那如果我的数据集是简体中文，按照上面的训练过程，我是需要自己构建位图，训练模型提取char_glyph_feat，然后再去做词/字向量的增强是吗

非常感谢您做的这些关于中文词向量的研究，同时希望能得到您的解答。

Answer 1 · 2020-08-18T11:47:08.000Z

(1) 是的，這部分是需要您自行從語料去訓練的。不公開作為初始值的詞向量與增強後的詞向量，是因為當時訓練語料來自 LDC 的中文gigaword。由於是實驗室取得授權，為了避免有授權的問題所以並未上傳。

(2) 是的。供您參考：我當初是使用 Pillow 產生中文字的bitmap，再餵進convAE。

希望能幫助到您，也祝您研究順利！