/Machine-Learning

LR / SVM / XGBoost / RandomForest etc.

Primary LanguageJupyter Notebook


备注:

1. 以下链接均为个人原创整理,理论部分主要为有道云笔记MarkDown文件

2. 部分Markdown文件包含大量LaTeX数学公式,请耐心等待加载


第一部分:机器学习算法

1. 经典非集成监督算法

1.1 【逻辑回归】理论详解:Logistic Regression

1.2 【决策树】理论详解:Decision Tree

1.3 【朴素贝叶斯】理论详解: Naive Bayesian

1.4 【支持向量机】理论详解


2. 集成算法

2.1 Boosting


2.2 Bagging

2.3 Stacking


3. 聚类

3.1 常见聚类算法原理

3.2 最佳聚类参数

  • 基本**: 运用GridSearch的思路在参数的笛卡尔积中寻找最佳聚类参数
  • 代码实现:cluster_centers.py

第二部分:机器学习重要模块

1. 数据探索


2. 数据预处理


3. 特征工程

3.1 特征选择

3.2 特征抽取

3.3 特征构建


4. 模型评估

4.1 交叉验证与常见评估指标

4.2 加权覆盖率

4.3 G-Mean

4.4 KS值

ks curve

4.5 ROC曲线与PRC曲线的绘制


5. 模型持久化

  • 运用joblib序列化各反序列化机器学习模型: joblib.py

  • 运用pickle序列化/反序列化机器学习模型: pickle.py


第三部分:基础知识

1. 最优化

2. 损失函数

3. 其他