本实验所需的全部文件和生成的全部文件均存放在file_dir文件下。
使用gensim包的WikiCorpus方法将zhwiki*.xml.bz2文件转化为corpus.zhwiki.txt
使用命令
python xml2txt.py input_file output_file
将zh_wiki*.xml.bz2 转化为 corpus_zhwiki.txt 后发现,语料中带有大量的繁体字,所以使用opencc库将繁体字转化为简体字
使用命令
python traditional2simplified.py input_file output_file
使用正则表达式去掉一些特殊字符,并使用jieba进行分词
使用命令
python segment.py input_file output_file
使用gensim的word2vec方法进行训练模型,这里提供了一些参数供训练,列出一些重要的参数
使用命令
python train.py input_file out_model out_vector min_count
这里使用word2vec_model.wv.similarity方法,对pku_sim_test.txt进行测试,进行两个词词向量的余弦距离计算
使用命令
python test.py input_file output_file path_Word2Vec_Model path_Word2Vec_Vec