MachineLearning: A repository from DoritozX

一些机器学习的资源

关于迁移学习和行为识别的资料，请见我的下面两个仓库：

致力于分享最新最全面的机器学习资料，欢迎你成为贡献者！

综述文章汇总

近200篇机器学习资料汇总！

1.机器学习入门资料

2.东京大学同学做的人机交互报告

3.我做的人机交互简介

4.人机交互与创业论坛

5. 职场机器学习入门

1.关于技术本身的情况

1.1 Machine Learning的一些理解

机器学习的概念自不用多说。这里我仅提到一点，机器学习在学科分类上是属于实现人工智能的一种重要方法，注定它和AI是不可分的。其实，传统的AI一直都侧重解决三个步骤的问题：知识的表示、知识的获取和知识的学习。其中，机器学习涵盖了知识的获取和学习两大部分，是AI的核心部分。其实说白了，ML解决的就是怎么从已知推断未知，它走的是归纳（induction）这个自上而下的过程，AI中还有一个相对立的知识体系叫做演绎（deduction），这个主要是自动推理的范畴，和机器学习基本关系不大，是较独立的一支。

1.2 一些课程资料

课程1：很有名的课程，你肯定知道，Andrew Ng在Stanford开的课，地址：吴恩达的机器学习公开课。该课程的优点：简单易懂，适用于初学者，特别适合入门及数学能力一般的，不难。缺点也很明显，基本都是点到为止，讲解不够深入，只适用于初学。
课程2：这个也是coursera上的课，讲师是国立**大学的林轩田，这个老师拿过三年的KDD Cup冠军，是机器学习界讲课不错的老师。他的课有两门，分别是机器学习基石（适合入门），机器学习技法（适合提高）。这个老师讲课很有意思，特别是**普通话听着还不错。（由于平台升级的原因，林轩田老师的课程在Coursera上面已经撤下，课程视频和PPT可以在这里找到，作业在这里。）
课程3：Coursera上非常著名的神经网络课，讲师是多伦多大学的Geoffrey Hinton，深度学习的大牛!一定不要错过！

1.3 瓶颈问题

不知道什么特征是重要特征。所以像deep learning很有用，是因为它能自动学习特征
现实世界中有label的数据太少，所以限制有监督学习算法（这个个人感觉太正常了）。
计算复杂度和数据量（这个是Big Data的瓶颈）
局部极小值问题（算法问题）

1.4 发展及预测

我眼中未来的ML应该是，几乎没有冷启动问题（针对一个特定问题，自己获取特征进行标注作为测试），是一个不间断在线学习的系统，系统能够对新加入的数据进行自动判断其是否能进入测试样本，用户看来，这就是一个高度智能的系统，随时出反馈。
模型及算法应该是对用户透明的，所有人不需要一点有关算法的知识就可以进行运用，这一点在我之前与你提到的DataRobot公司已有说明，自动根据用户的数据在云端测试各种模型并给出最优参数及结果。我感觉对未来的ML而言，由于Big Data的不断发展，计算复杂性必然不能成为问题。这应当成为未来的趋势之一。
数据获取不能成为问题。现在的ML都是确定研究问题，然后想好要采集什么特征，然后用什么sensor来采集，之后必然配合大量的人工采集，劳民伤财。我认为未来的ML，在数据的获取方面，必然要具有类似自动生成数据的能力，当下没有这部分数据，我可以用已有的知识和数据分析生成一部分自动的测试数据，作为冷启动的一部分。由于未来是Big Data的时代，所以，这部分数据在今后不断学习的过程中，其权重必然会越来越低，不会对真正数据产生影响。

1.5 ML的基本流程方面

基本就是确定研究问题——采集数据——人工标注——选择模型和算法——看结果调参数

2.数据采集方面

2.1 目前的情况是，需要提前想好需要采集的数据，并配合相应的设备进行采集。在人体健康方面主要的依据是医学期刊与会议文章中的特征知识，比如，根据医学知识，患有抑郁症的病人其走路会不稳当且走路很慢，这就是依据，根据这些可以基本确定要采集的数据类型及sensor。

2.2 预处理的方面比较杂乱，主要是去除脏数据并进行人工标注。预处理方面，由于针对的问题不同，所以，对脏数据的定义也不一样，需要结合一定的field study进行研究处理。在现有的条件下，基本上监督学习方面占了很大的比重，所以，人工标注是必要的。预处理的方面和数据挖掘这门课分不开，有关预处理的知识，在这里(目录待完善)。

2.3 就目前情况而言，不知道特征量的话，有两种方面，一种我们小组之前在高效能豆瓣电影评分时用过，就是尝试不同特征与不同的模型组合以分析可能的特征值，这是笨办法，在特征值少时有用。另一种就是DL，目前我尚未接触过真正的应用，所以这里不予举例。

[文章版权声明]这篇文档是我开源到github上的，可以遵守相关的开源协议进行使用，如果使用时能加上我的名字就更好了。这个仓库中包含有很多研究者的论文、硕博士论文等，都来源于在网上的下载，我对一些文章都作了注解，有可能会很好地帮助理解。对于这些文章的版权属于相应的出版社。如果作者或出版社有异议，请联系我进行删除（本来应该只放文章链接的，但是由于时间关系来不及）。一切都是为了更好地学术！

DoritozX/MachineLearning