/MachineLearning

一些关于机器学习的学习资料与研究介绍

##一些机器学习的资源

####关于行为识别的资料,请看我最新增加的这个地址:行为识别

####1.机器学习入门资料

####2.东京大学同学做的人机交互报告

####3.我做的人机交互简介

####4.我做的迁移学习学术报告

####6.人机交互与创业论坛

####7.迁移学习简介

###1.关于技术本身的情况

1.1 Machine Learning的一些理解

  • 机器学习的概念自不用多说。这里我仅提到一点,机器学习在学科分类上是属于实现人工智能的一种重要方法,注定它和AI是不可分的。其实,传统的AI一直都侧重解决三个步骤的问题:知识的表示、知识的获取和知识的学习。其中,机器学习涵盖了知识的获取和学习两大部分,是AI的核心部分。其实说白了,ML解决的就是怎么从已知推断未知,它走的是归纳(induction)这个自上而下的过程,AI中还有一个相对立的知识体系叫做演绎(deduction),这个主要是自动推理的范畴,和机器学习基本关系不大,是较独立的一支。

1.2 一些课程资料

  • 课程1:很有名的课程,你肯定知道,Andrew Ng在Stanford开的课,地址:吴恩达的机器学习公开课。该课程的优点:简单易懂,适用于初学者,特别适合入门及数学能力一般的,不难。缺点也很明显,基本都是点到为止,讲解不够深入,只适用于初学。我目前已看完。

  • 课程2:这个也是coursera上的课,讲师是国立**大学的林轩田,这个老师拿过三年的KDD Cup冠军,是机器学习界讲课不错的老师。他的课有两门,分别是机器学习基石(适合入门),机器学习技法(适合提高)。这个老师讲课很有意思,特别是**普通话听着还不错。我目前在听他的机器学习基石,还没有听完。

  • 课程3:Coursera上非常著名的神经网络课,讲师是多伦多大学的Geoffrey Hinton,深度学习的大牛!一定不要错过!

1.3 瓶颈问题

  • 不知道什么特征是重要特征。所以像deep learning很有用,是因为它能自动学习特征
  • 现实世界中有label的数据太少,所以限制有监督学习算法(这个个人感觉太正常了)。
  • 计算复杂度和数据量(这个是Big Data的瓶颈)
  • 局部极小值问题(算法问题)

1.4 发展及预测

  • 我眼中未来的ML应该是,几乎没有冷启动问题(针对一个特定问题,自己获取特征进行标注作为测试),是一个不间断在线学习的系统,系统能够对新加入的数据进行自动判断其是否能进入测试样本,用户看来,这就是一个高度智能的系统,随时出反馈。

  • 模型及算法应该是对用户透明的,所有人不需要一点有关算法的知识就可以进行运用,这一点在我之前与你提到的DataRobot公司已有说明,自动根据用户的数据在云端测试各种模型并给出最优参数及结果。我感觉对未来的ML而言,由于Big Data的不断发展,计算复杂性必然不能成为问题。这应当成为未来的趋势之一。

  • 数据获取不能成为问题。现在的ML都是确定研究问题,然后想好要采集什么特征,然后用什么sensor来采集,之后必然配合大量的人工采集,劳民伤财。我认为未来的ML,在数据的获取方面,必然要具有类似自动生成数据的能力,当下没有这部分数据,我可以用已有的知识和数据分析生成一部分自动的测试数据,作为冷启动的一部分。由于未来是Big Data的时代,所以,这部分数据在今后不断学习的过程中,其权重必然会越来越低,不会对真正数据产生影响。

1.5 ML的基本流程方面

基本就是确定研究问题——采集数据——人工标注——选择模型和算法——看结果调参数

###2.数据采集方面

2.1 目前的情况是,需要提前想好需要采集的数据,并配合相应的设备进行采集。在人体健康方面主要的依据是医学期刊与会议文章中的特征知识,比如,根据医学知识,患有抑郁症的病人其走路会不稳当且走路很慢,这就是依据,根据这些可以基本确定要采集的数据类型及sensor。

2.2 预处理的方面比较杂乱,主要是去除脏数据并进行人工标注。预处理方面,由于针对的问题不同,所以,对脏数据的定义也不一样,需要结合一定的field study进行研究处理。在现有的条件下,基本上监督学习方面占了很大的比重,所以,人工标注是必要的。预处理的方面和数据挖掘这门课分不开,有关预处理的知识,在这里(目录待完善)。

2.3 就目前情况而言,不知道特征量的话,有两种方面,一种我们小组之前在高效能豆瓣电影评分时用过,就是尝试不同特征与不同的模型组合以分析可能的特征值,这是笨办法,在特征值少时有用。另一种就是DL,目前我尚未接触过真正的应用,所以这里不予举例。