/skip-gram-Chinese

skip-gram for Chinese word2vec base on tensorflow

Primary LanguagePython

skip-gram-Chinese

  • 概要
    针对中文语料数据,基于tensorflow的skip-gram算法实现,实验语料使用金庸全集(可替换)
  • 代码
    skipgram_chinese.py -- 源码
    usage_example.py -- 使用示例(需下载word2vec.txt)
  • 语料与模型
    语料 -- 金庸全集(注意:生成通用词向量应使用其他标准语料库,可以参考https://github.com/brightmart/nlp_chinese_corpus
    模型 -- word2vec.txt (10万词,100维向量表示)
    文件较大,均提供外链下载
  • 效果示例
pd.Series(word2vec_model.most_similar(u'乔峰'))

0 (鸠摩智, 0.5863361358642578)
1 (萧峰, 0.5798118114471436)
2 (任我行, 0.5723351836204529)
3 (慕容复, 0.5638849139213562)
4 (杨康, 0.5621821880340576)
5 (裘千仞, 0.5401000380516052)
6 (岳不群, 0.5394284725189209)
7 (张翠山, 0.5377693176269531)
8 (车尔库, 0.5314956903457642)
9 (令狐冲, 0.5277308821678162)