cliuxinxin/TX-WORD2VEC-SMALL

小语料库是如何选择的?

Closed this issue · 1 comments

jt120 commented

是按照 top 排序,选前 5w 这种吗?

还是有其他的选择策略?

欢迎提issue

是的,你说的没错,是选择top排序的。

根据训练的逻辑,排在前面的词也是频率高的词。所以也是选择了最常见的5w词。

或者你还有什么好的想法也可以提提,我看是否能够实现。

我先把问题关了,如果有任何问题,可以再开或者再提。