由于整个项目做完代码太多了就没有合并到一起(合到一起代码太长逻辑看起来没那么清晰),麻烦老师了,可以主要看前3个notebook,项目的对外的核心为前3个jupyter notebook文件,如下:
1.ExploratoryDataAnalysis(EDA).ipynb
:探索性数据分析,未修改原数据,通过大量的图表进行了数据分析,为第二步特征工程做铺垫2.feature_engineering.ipynb
:特征工程,包括数据预处理、构造特征、筛选特征,最后的结果写入process_data文件夹,作为第三步模型的输入,达到解耦3.models.ipynb
:模型搭建、训练、预测、评估,结果可视化,包含13类模型以及集成学习的部分
剩下两个文件为辅助性的jupyter notebook文件,如下:
4.sampler_test.ipynb
:解决数据不平衡时,用于测试欠采样、过采样与不处理在基模型base model上的表现5.bayies_lgbm.ipynb
:其中之一的调参文件,通过贝叶斯优化进行lightGbM模型的参数调优
此外的文件夹为整个项目的完整源代码,说明如下:
- data:用于储存原始数据(提交的版本为节省大小已删除)
- procee_data: 用于储存特征工程处理后的数据,即模型最终的输入(提交的版本为节省大小已删除)
- layers: 深度学习模型复用的自定义网络层
- models:所有基于tensorflow的自定义深度学习模型
- utils:整个程序会用到的复用的功能性代码,如数据采样,网络的输入处理,评价指标,网络结构测试
- workspace:所有分类模型的实现、训练及模型评价的最终目录,包含模型融合