- CNN (CNN文本处理及模型)
- Database (mysql连接类及数据库结构文件)
- Ensemble (集成学习文本处理及模型)
- FetchBindex (百度指数爬虫)
- LSTM (LSTM文本处理及模型)
- run_data (生成文件存放目录)
- Spider (财经新闻、股票数据爬虫及自定义工具类)
- /main.py (入口文件,含交叉验证及所有样例)
- /ensemble_temp.bat (批处理文件,作用详见下面"缺陷")
- 财经新闻数据:Spider/NewsSpider.py
- 股票历史数据:Spider/StockSpider.py
- 百度指数数据:FetchBindex
- 数据处理:CNN/DataHelper.py、CNN/News.py(新闻词典生成)
- CNN训练数据集:CNN/OriginData.py
- LSTM训练数据集:LSTM/OriginData.py
- 集成学习模型训练数据集:Ensemble/Ensemble.py
- CNN模型:CNN/CNNStockText.py、CNN/CNNStockNumber.py
- LSTM模型:LSTM/LSTMStockOrigin.py
- 集成学习模型:Ensemble/Ensemble.py
- 模型十折十次交叉验证:/main.py
- 倾向词典分析:CNN/News.py
- 模型预测结果分析:Spider/Analyse.py
- 利用Ensemble类的makeEnsembleData函数生成集成模型的输入集时,因内存释放问题,在生成第一个输入集后速度会变慢(需生成100个输入集),暂处理方法为加入exit()并利用批处理(即每次生成一个后退出,利用批处理来执行一百遍)
实验数据 (内含本人毕业论文、相关文献、数据库数据、实验过程数据、实验结果截图)
开源代码对学术研究完全开放,使用时请引用出处;请勿用作商业应用,后果自行负责。