ray1007/GWE

有一些关于训练和结果的问题,麻烦作者,您能解答一下

Opened this issue · 1 comments

@ray1007 作者,您好,我读过了您的论文,关于整个的训练过程,我的理解是
(1)先找好语料,构建位图,训练convAE,抽取出 glyphs features
(2)通过上述的 glyphs,去增强word representation的表达

我有如下疑问:
(1)我看github文件中,您只放出了char_glyph_feat.txt文件,那使用char_glyph_feat增强得到的词向量/子向量,是需要我们自己根据我们自己的数据集去训练吗
(2)我看您使用的是繁体中文得到的char_glyph_feat,那如果我的数据集是简体中文,按照上面的训练过程,我是需要自己构建位图,训练模型提取char_glyph_feat,然后再去做 词/字向量的 增强是吗

非常感谢您做的这些关于中文词向量的研究,同时希望能得到您的解答。

(1) 是的,這部分是需要您自行從語料去訓練的。不公開作為初始值的詞向量與增強後的詞向量,是因為當時訓練語料來自 LDC 的中文gigaword。由於是實驗室取得授權,為了避免有授權的問題所以並未上傳。

(2) 是的。供您參考:我當初是使用 Pillow 產生中文字的bitmap,再餵進convAE。

希望能幫助到您,也祝您研究順利!