Report

根据贷款app提供的数据，预测用户是否存在贷款违约的可能。所给数据集的指标包括：收入、年龄、专业、房车、位置等。

数据示意图：

通过Null的判断知道，Income居然有空的情况，可能是不好意思写上去吧，这个时候有两种选择：

同样地，图示明显，还有异常值Age为0。Age异常值量20000+，不能浪费，观察异常值的具体分布，结果与上图相似度较高（图略）

因此我们采用了回归分析的方式填充异常值。

为什么不选取平均值的方式？

因为我们认为接下来的操作设计到分类聚合，将缺失值统一到同一值可能会导致分箱偏差。

并且，对于存在字符串的列，我们使用了【独热编码】的方式进行离散化，方便我们进行后续的处理。

我们小组尝试过多种模型进行拟合。比如：

数据科学家定义为具有计算机科学技术，数学和统计学知识基础和实质性专业理论知识的人。

对于每一个可视化的图表、分析的指标，挖掘蕴含的信息需要独到的眼光，才能看到别人忽略的细节。

实验中结合实际，提供贷款的预测，我们代入自己的情况数据进行模型预测，对未来也有了清晰的认识。

1475505/BUPT_DataWork-101