to store the knowledge I've learned about machine learning
机器学习部分
1、任务T 分类:返回一个从输入特征到类别的映射函数,如对象识别、人脸识别 回归:返回一个从输入到预测数值的映射函数,如证券价格预测、索赔金额预测 转录:非结构化的数据转录为离散的文本形式,如光学字符识别、语音识别 机器翻译:一种语言序列转化为另一种语音序列,如自然语言处理 结构化输出:输出是内部紧密相关的向量或者包含多个值的数据结构,如语法分析、像素级分割、图片描述 异常检测:标记不正常个体,如信用卡欺诈检测 合成和采样:根据给定的输入生成特定类型的输出,如语音合成 缺失值填补:给定具有缺失值的新样本,设计算法填补缺失值 去噪:根据损坏后的样本预测干净的样本 密度估计或者概率质量函数估计:隐式或者显式捕获概率分布的结构,如密度估计
2、性能度量P 准确率、错误率、输出模型在一些样本上概率对数的平均值
3、经验E 监督学习:对于带有标签的数据,学习一个从输入数据到标签的映射 应用场景:回归、分类 算法:逻辑回归、反向传播算法
无监督学习:对于不含有标签的数据集,学习数据的内在结构 应用场景:关联规则的学习、聚类 算法:K-Means、Apriori算法
半监督学习:输入数据部分被标记,部分没有被标记 应用场景:通过对已标记数据建模,对未标记数据进行预测,如分类和回归 算法:图论推理算法(Graph Inference)或者拉普拉斯支持向量机(Laplacian SVM)
弱监督学习:
3、容量、过拟合、欠拟合、正则化
衡量算法效果是否好得因素:1)降低训练误差;2)缩小训练误差和测试误差的差距。
模型容量(capacity):拟合各种函数的能力。
泛化误差:新输入的误差期望。
满足假设:训练集和测试集共享一个数据生成分布,该分布满足独立同分布假设,样本之间相互独立。
量化模型容量的指标:VC维,即该分类器能够分类的训练样本的最大数目。
模型分类:1)参数模型: 2)非参数模型:例如最近邻回归 3)在非参数学习算法中嵌入参数学习算法
调整容量的方法:1)调整函数的数量和种类来选择假设空间,例如线性函数、广义线性回归的假设空间; 2)更一般的方法:表示对函数的偏好。
奥卡姆剃刀原理:在能够解释已知观测现象的假设中,应该挑选“最简单”的一个。
没有免费午餐原理:在所有可能的数据生成分布上平均之后,每一个分类算法在事先未观测的点上都有相同的错误率。即,考虑所有可能的数据生成分布,没有一个机器学习算法总是比其他的要好。
正则化:偏好于范数较小的权重。lamda->0,欠拟合;lamda->无穷,过拟合。