- 概要
针对中文语料数据,基于tensorflow的skip-gram算法实现,实验语料使用金庸全集(可替换) - 代码
skipgram_chinese.py -- 源码
usage_example.py -- 使用示例(需下载word2vec.txt) - 语料与模型
语料 -- 金庸全集(注意:生成通用词向量应使用其他标准语料库,可以参考https://github.com/brightmart/nlp_chinese_corpus
模型 -- word2vec.txt (10万词,100维向量表示)
文件较大,均提供外链下载 - 效果示例
pd.Series(word2vec_model.most_similar(u'乔峰'))
0 (鸠摩智, 0.5863361358642578)
1 (萧峰, 0.5798118114471436)
2 (任我行, 0.5723351836204529)
3 (慕容复, 0.5638849139213562)
4 (杨康, 0.5621821880340576)
5 (裘千仞, 0.5401000380516052)
6 (岳不群, 0.5394284725189209)
7 (张翠山, 0.5377693176269531)
8 (车尔库, 0.5314956903457642)
9 (令狐冲, 0.5277308821678162)