construct_thesaurus

软件工程课设分词分类部分，语料爬取部分详见words_spider

目前完成分词部分，分词器使用jieba库进行分词

环境部署

Dump20190531.sql为数据库迁移文件，在语料爬取部分数据库的基础上，新建表thesaurus，并导入了清华大学中文语料库作为基础词库

mysql -uroot -p < Dump20190531.sql

如不需要次基础词库，可修改迁移文件只导入数据库结构，再自行导入其他基础词库，导入方式可以参考我写的脚本word.py

安装相应python包

pip install -r requirements.txt

安装本项目并运行（目前仅分词、训练词向量模型）

python setup.py install
python main.py