毕业论文代码实现,便于分析和复现。
所有结果已经保存在 “result” 文件夹中,可以按照下面的指示进行复现。
使用 Python 来实现数据预处理和回归
pip install numpy
pip install pandas
pip install statsmodels
pip install linearmodels
使用 R 来进行 C-Lasso 分组
install.packages('devtools')
library(devtools)
devtools::install_github("zhan-gao/classo", INSTALL_opts=c("--no-multiarch"))
-
安装 Python 环境和 R 环境,安装上述包
-
下载本仓库并进入本仓库文件夹
-
数据来源于 csmar 数据库,由于数据存在版权原因不提供开放下载。请参考“data”文件夹下的 README.md 到 csmar 数据库下载相应数据。请准备好相应数据
-
进入“代码”文件夹
- 执行
clean_data.py
,会整理并合并出完整的数据,位于“data/data_all.csv” - 执行
reg.py
,会运行混合估计回归,固定效应回归以及控制行业的回归。在“result”文件夹里可以看到- correlation 相关系数矩阵
- data_describe 描述性统计
- fixed_effects 固定效应回归结果
- industry_control 控制行业回归结果
- pooled_reg 混合估计回归结果
- VIF 用于判断多重共线性的 VIF 结果
- 执行
-
执行
classify.R
,将调用 c-lasso 进行分组,分组结果保存在 “result/classified.csv”,这一步执行时间会比较长 -
执行
groupreg.py
,将调用分组结果进行回归,结果保存在 “result/group_reg.txt” -
执行
ROE_group.py
,探索与盈利因子强相关的公司的特征,结果保存在 “result/ROE_group.txt”
所有的结果都是以 utf-8 编码储存