简介

基于书《Python机器学习算法》整理

回归

监督学习算法和分类的区别是标签是连续值

1 线性回归

求解目标:平方误差的最小值
概念最小二乘广义逆牛顿法:一阶导数和二阶导数进行迭代;基本牛顿法/全局牛顿法

2 岭回归和Lasso回归

都是正则化的特征选择方法 0. 解决最小二乘无法解决的强线性相关性问题

岭回归:平方误差基础上增加L2正则项
Lasso回归:平方误差基础上增加L1正则项
BFGS校正算法 L-BFGS:只保存最近的m次迭代，降低存储空间

3 CART树回归

局部回归模型;数据集切成多份，每一份单独建模，参数确定后无需改变
选择样本与平均值的差的平方和作为划分指标
剪枝:防止过拟合前剪枝:对深度进行控制后剪枝:过拟合则合并叶子结点

聚类

无监督学习算法相似属性聚集到一个类中

1 K-means

相似个体划分统一类别闵可夫斯基距离(p) 曼哈顿距离(p=1) 欧式距离(p=2)
步骤初始化聚类中心数k->{计算样本与聚类中心相似度并划分/更新聚类中心}->输出
K-means++ 先选一个点，然后概率选择则距离最大，最终完成聚类中心初始化

2 Mean Shift

相比K-means不需事先指定类别个数 0. 通过给定区域样本均值确定聚类中心，不断更新

概念 Mean Shift向量:漂移均值向量求和再求平均核函数:作用是使得随着样本与被漂移点的距离不同，漂移点对均值漂移向量贡献也不同;常用高斯核函数 N:输入空间 H:特征空间 h:带宽
算法: (1)计算漂移均值 (2)移动到漂移处 (3)更新直到满足停止条件
解释:Mean Shift向量总是指向概率密度增加的方向

3 DBSCAN

用于非球状簇 0. 基于密度的聚类算法[Density-Based Spatial Clustering of Application with Noise]

概念核心点:点的邻域内至少包含MinPts(最小样本数)的样本边界点:样本数少于MinPts 噪音点:既不是核心点，也不是边界点直接密度可达:核心点邻域内密度可达:序列可达密度连接:两个点存在一个公共的密度可达点
算法原理:导出最大的密度连接样本的集合 (1)给定邻域参数和MinPts，确定所有的核心对象 (2)对每一个核心对象进行(3) (3)选择任一个未处理的核心对象，找到密度可达的样本生成簇 (4)重复(2)和(3)

4 Label Propagation

社区:分组划分方法:凝聚[不断合并不同社区]/分裂[不断删除网络中边]/直接近似求解模块度函数评价标准:模块度
基于标签传播的局部社区划分方法
标签传播: 同步更新异步更新停止di(Cm)>di(Cj)
过程 (初始化唯一标签->设置代数t->标签传播->)

深度网络

前面的内容可以说是特征处理，需要大量鲜艳知识深度学习自动提取特征，这一过程称为特征学习

1 AutoEncoder

最基本的特征学习方式，通过重构输入数据达到自我学习目的
结构： ==>输入层--编码->隐含层--解码->输出层==> 使用均方误差或交叉熵作为重构误差
降噪自解码器：输入数据加入噪音，使学习的编码器具有更强鲁棒性
构建网络 (1) 无监督逐层训练: 依次训练多个降噪自编码器 (2) 有监督微调:将训练好的多个降噪自编码器的编码Encoder层组合起来

2 卷积神经网络

充分利用图像数据局部相关性，减少参数个数
重要概念 (1) 稀疏连接:对数据局部区域进行建模，发现局部特性 (2) 共享权值:减少优化参数子采样:解决图像中的平移不变性感受野:被选择的子集大小;一组感受野中参数相互共享 (3) 池化:一般采用最大池化,降低计算量
基础模型: 卷积层、池化层、全连接层 (1) 卷积操作 (2) max-pooling (3) MLP:卷积层和下采样层交替叠加

feng42/MachineLearning_exercise

简介

分类

1 Logistic Regression

2 Softmax Regression

3 Factorization Machine

4 SVM

5 随机森林

6 BP神经网络

回归