使用的数据集:链接: https://pan.baidu.com/s/14HxsSXKAin2U5ZhP_PMU9Q 提取码: i42f
1、学习掌握逻辑回归的概念和相关工具的使用,另外学习掌握在数据样本不平衡的情况下,如何评估模型。这里需要了解精确率,召回率和F1的概念和计算方式。
2、在信用卡欺诈分析的项目中,可以使用了逻辑回归的工具,并对混淆矩阵进行了计算,同时在模型结果评估中,使用了精确率、召回率和F1值,最后得到精确率-召回率曲线的可视化结果。
3、这里我们知道,不是所有的分类都是样本平衡的情况,针对正例比例极端的情况,比如信用卡欺诈,某些疾病,或者恐怖分子的判断等等,都需要采用精确率-召回率来进行计算统计。
4、信用卡欺诈分析
- 逻辑回归
- 概念:也叫做logistic回归,主要解决的是二分类问题,在逻辑回归中使用了Logistic函数,也称为Sigmoid函数
- 构造函数LogisticRegression()
- penalty:惩罚项,取值为l1或者l2,默认是l2.l2假设的模型参数满足高斯分布,l1假设的模型参数满足拉普拉斯分布
- solver:代表的是逻辑回归损失函数的优化方法。可以有5个参数可选,分别为:liblinear,lbfgs,newton-cg,sag,saga。默认是liblinear
- max_iter:算法的收敛的最大迭代次数,默认是10.
- n_jobs:拟合和预测的时候CPU的核数,可能是1,也可以是整数,如果是-1则代表CPU的核数
- 功能函数:
- fit()函数进行拟合
- predict()函数进行预测
- 模型评估指标
- 准确率Accuracy=(TP+TN)/(TP+TN+FN+FP)
- 精确率P = TP/(TP+FP)
- 召回率R = TP/(TP+FN)
- 项目流程
- 准备阶段:数据探索,数据规范化,数据集划分
- 分类阶段:模型创建,模型训练,模型评估