适合传统软件工程师的 Machine Learning 学习路径

从造丹炉到学炼丹的修真之路

才云科技是一家基于容器技术和人工智能，打造新一代智能云计算平台和 AI 服务的公司。而随着超参数搜索，模型结构搜索，模型量化与压缩等功能与概念在业界的逐渐落地，机器学习平台的开发工作对机器学习本身的要求越来越高。这要求传统的软件开发工程师不仅需要了解分布式系统等与云计算相关的知识，也需要了解基础的机器学习原理与概念。因此，出于帮助才云内部的机器学习平台开发工程师们更加好地了解机器学习的目的，我们于 2019 年内部推出了这一文档，现以开源的方式进行维护。

文档主要为传统的软件工程师提供一个循序渐进，实践性强的路径，来了解深度学习的基本原理，以及深度学习在计算机视觉和其他领域的应用。由于我们的目标不是让每一位软件工程师转型为算法工程师，而是学习深度学习的知识来指导我们的工作。因此内容更偏向工程化，而非深度学习的数学知识与理论证明。

这一文档以计算机视觉领域中的图像识别问题作为切入口，聚焦于一个具体的问题，深入浅出地了解经典的深度网络模型，而不会对各个领域浅尝则止。

深度学习在计算机视觉领域的应用

深度学习在计算机视觉领域有许多应用场景。

Fig. 1 图像识别与对象识别

首先最简单的是图像识别，也就是 Fig. 1 中的上图。图片中只有一个物体，而图像识别算法会识别出图像中唯一的物体是什么物体。这一例子中是狗。图像识别也是我们这一课程面向的应用场景。其代表模型有 MNIST（数字图像识别），ResNet, MobileNet, DenseNet, VGG 等。

接下来，是对象检测，或者说目标检测，也就是 Fig. 1 中的下图。在一张图中，检测出图中所有的对象以及类别（两条狗，一只猫），以及它们的位置（蓝色框和红色框）。这一应用场景下的经典模型有Faster RCNN, SSD, Yolo-v3 等。

Fig. 2 语义分割与实例分割

再接下来，有图像语义分割，也就是 Fig. 2 中的上图。图像语义分割就是机器自动从图像中分割出对象区域，并识别其中的内容。图中例子为识别了狗和猫，并且用不同的颜色区分区域。这一应用场景的经典模型有 FCN, PSP, DeepLab v3 等。

图像实例分割如 Fig. 2 下图所示，是在语义分割的基础上，划分不同实例。狗作为一个对象（可以理解为面向对象中的类），有不同的实例。实例分割不仅需要区分不同对象，还需要区分不同实例。这一场景的经典模型有 Mask RCNN 等。

Fig. 3 姿态估计（credit：知乎李沐）

姿态估计，如图 Fig. 3 所示，就是根据图像确定人体骨架，以及人体姿态动作。这一领域的经典模型有 Simple Pose 等。

Fig. 4 GAN

除了上述应用，还有一类特殊的模型应用，即生成式对抗网络。它可以被用来做风格转移（照片转水墨画风格等），超分辨率（分辨率低的图片生成高分辨率的图片，或者根据低分辨率的图片复原高分辨率的图片等）等不同的生成图片任务上。Fig. 4 中所展示的就是一个 GAN 模型利用人脸图片生成对应 emoji 下的图片的过程。这一模型由于应用很广而且过于灵活，因此有很多不同的实现，比较经典的有 WGAN, CycleGAN，SRGAN 等。

Fig. 5 行人重识别

除此之外，如 Fig. 5 所示，还有一类应用就是行人重识别。这是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。广泛被认为是一个图像检索的子问题。给定一个监控行人图像，检索跨设备下的该行人图像。旨在弥补目前固定的摄像头的视觉局限，并可与行人检测/行人跟踪技术相结合，可广泛应用于智能视频监控、智能安保等领域。

深度学习在计算机视觉领域的应用形形色色，我们只针对其中最简单的应用，也就是图像识别问题展开学习。

学习路径

学习路径一共分为六个阶段，其中第一个阶段主要会了解 DL 的基本概念；第二个阶段会以 kNN（k 近邻算法）为例，了解传统机器学习在图像分类问题的解法。第三个阶段会了解梯度下降，反向传播等神经网络的基础知识。第四个阶段会了解卷积神经网络的卷积层，池化层等概念。第五个阶段将会更加深入地了解模型训练的过程。第六个阶段会以 TensorFlow 为例，了解模型部署和可视化过程，最后一个阶段则是自由的探索与学习。

其中会首先介绍每一阶段的目标，随后是推荐的学习资料，最后是 Checklist。

第一阶段炼气期（3-5 周，每周 2-4 小时）

目标

这一阶段的主要目标是，熟悉 AI，尤其是 DL 的基本概念。在这一阶段中，以下知识会需要了解：

什么是数据
神经网络是什么，以及它在最近兴起的原因
机器学习的基本概念，监督学习与非监督学习的关系
神经网络与机器学习的关系
深度网络是什么，它与神经网络又是什么关系

通过这一阶段的了解，我们会清楚，机器学习是一门怎样的学科，神经网络在其中又扮演着怎样的角色。

Checklist

（可选） AI For Everyone 所有课程
网易深度学习工程师微专业中的第一课-神经网络和深度学习中的第一周的所有课程

第二阶段筑基期（2 周，每周 3-5 小时）

目标

在上一阶段，我们已经了解了 DL 是什么，可以用来做什么。第二阶段中，我们将面向图像识别这一特定的场景，了解一些机器学习传统的算法和一些基础的数学概念。

图像识别场景是深度学习领域应用最广泛，也是最经典的应用场景。从这一场景入手有助于简化问题。图像识别，顾名思义，就是给定一个图片，预测这一图片上的内容是什么（如，猫，狗，人，树木等）。

在这一阶段中，我们需要了解：

图像识别是一个什么问题
传统统计学，和传统机器学习的方法是如何解决这一问题的（主要关注 kNN 算法即可）

Checklist

2017 斯坦福李飞飞视觉识别课程第一讲，第二讲
CS231n-Assignment-1 的 Q1
（可选）网易深度学习工程师微专业中的第一课-神经网络和深度学习中的第二周所有课程

第三阶段金丹期（2 周，每周 3-5 小时）

目标

在上一个阶段，我们大致了解了传统机器学习算法（KNN）是如何解决图像识别问题的。接下来我们需要了解：

损失函数是什么，它的作用是什么
梯度下降等优化方法是什么，它们想解决什么问题
神经网络的反向传播是在做什么

正所谓结为金丹客，方是我辈人。通过这一阶段的学习，我们会掌握神经网络中的基本概念，真正走入深度学习的殿堂。

Checklist

2017 斯坦福李飞飞视觉识别课程第三讲，第四讲
CS231n-Assignment-1 的 Q2 Q3
（可选）网易深度学习工程师微专业中的第一课-神经网络和深度学习中的第三周和第四周所有课程

第四阶段元婴期（2 周，每周 3-5 小时）

目标

这一阶段的目标，是在上周对神经网络的基础上，了解卷积神经网络。

卷积神经网络是一种由一个或多个卷积层和顶端的全连通层（对应经典的神经网络）组成，同时也包括关联权重和池化层。这一结构使得卷积神经网络能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网络在图像和语音识别方面能够给出更好的结果。

本阶段需要了解如下概念：

卷积是什么，卷积的步长是什么，卷积为什么有效，为什么要在视觉识别场景下使用卷积操作
池化操作是什么，它的作用是什么

经过这一阶段的学习，我们就已经掌握了视觉识别场景下最常用的神经网络结构：卷积神经网络。

Checklist

2017 斯坦福李飞飞视觉识别课程第五讲
CS231n-Assignment-1 的 Q5
[ ]（可选）网易深度学习工程师微专业中的第四课卷积神经网络的第一周内容

第五阶段化神期（3-5 周，每周 3-5 小时）

目标

在上一阶段的学习中，我们已经了解了卷积神经网络，这一阶段主要学习如何训练卷积神经网络。

这一阶段主要需要了解：

激活函数的选择
模型训练的本质是什么（前向与后向传播）
如何利用 PyTorch，TensorFlow 等框架进行模型的训练

通过这一阶段的学习，我们可以自豪地说，我们成为了一个合格的炼丹师，懂得丹药之理（模型训练的本质），也懂得如何利用炼丹炉（TensorFlow）炼制丹药（训练模型）。

Checklist

2017 斯坦福李飞飞视觉识别课程第六讲，第七讲
CS231n-Assignment-2 的 Q1 Q4 Q5
(可选) 网易深度学习工程师微专业中的第二课改善深层神经网络的全部三周课程

第六阶段练虚期（1 周，3-5 小时）

目标

在之前的阶段中，我们已经学习了如何训练一个模型，接下来我们需要了解：

模型可视化的工具与作用
如何进行模型部署

对于有计算机系统背景的炼丹师来说，这反而是返璞归真，最简单的阶段。这两个需求在 TensorFlow 框架上对应两个工具 TensorBoard 和 TFServing。这也是 TensorFlow 之所以比 PyTorch 更受工业界欢迎的重要原因。

Checklist

TensorBoard 文档，以及观看视频
阅读 TensorFlow 学习笔记-模型部署章节

第七阶段大乘期（终身学习）

目标

完成了上述阶段的学习后，我们已经了解了卷积神经网络从原理，到训练，再到部署的知识。接下来可以：

继续学习卷积神经网络，了解各种经典的模型（AlexNet，ResNet 等）
学习循环神经网络（RNN），一种不同于卷积神经网络（CNN）的全新网络。可以用来做时序预测等不同于图像是别的任务
学习生成网络（GAN）
其他一切你想做的

参考文献与资料

许可协议

本文遵守创作共享CC BY-NC-SA 3.0协议
商业目的转载，请联系 marketing@caicloud.io
如有任何版权问题，请联系 gaoce@caicloud.io

caicloud/mlsys-ladder

适合传统软件工程师的 Machine Learning 学习路径

目录

背景

深度学习在计算机视觉领域的应用

学习路径

第一阶段炼气期（3-5 周，每周 2-4 小时）

目标

推荐资料

Checklist

第二阶段筑基期（2 周，每周 3-5 小时）

目标

推荐资料

Checklist

第三阶段金丹期（2 周，每周 3-5 小时）

目标

推荐资料

Checklist

第四阶段元婴期（2 周，每周 3-5 小时）

目标

推荐资料

Checklist

第五阶段化神期（3-5 周，每周 3-5 小时）

目标

推荐资料

Checklist

第六阶段练虚期（1 周，3-5 小时）

目标

推荐资料

Checklist

第七阶段大乘期（终身学习）

目标

推荐资料

参考文献与资料

许可协议

caicloud/mlsys-ladder

适合传统软件工程师的 Machine Learning 学习路径

目录

背景

深度学习在计算机视觉领域的应用

学习路径

第一阶段 炼气期（3-5 周，每周 2-4 小时）

目标

推荐资料

Checklist

第二阶段 筑基期（2 周，每周 3-5 小时）

目标

推荐资料

Checklist

第三阶段 金丹期（2 周，每周 3-5 小时）

目标

推荐资料

Checklist

第四阶段 元婴期（2 周，每周 3-5 小时）

目标

推荐资料

Checklist

第五阶段 化神期（3-5 周，每周 3-5 小时）

目标

推荐资料

Checklist

第六阶段 练虚期 （1 周，3-5 小时）

目标

推荐资料

Checklist

第七阶段 大乘期（终身学习）

目标

推荐资料

参考文献与资料

许可协议

第一阶段炼气期（3-5 周，每周 2-4 小时）

第二阶段筑基期（2 周，每周 3-5 小时）

第三阶段金丹期（2 周，每周 3-5 小时）

第四阶段元婴期（2 周，每周 3-5 小时）

第五阶段化神期（3-5 周，每周 3-5 小时）

第六阶段练虚期（1 周，3-5 小时）

第七阶段大乘期（终身学习）