深度学习百问包含深度学习基础篇、深度学习进阶篇、深度学习应用篇、强化学习篇以及面试宝典,详细信息请参阅Paddle知识点文档平台。
-
深度学习基础篇
-
- 基础知识(包括神经元、单层感知机、多层感知机等5个知识点)
- 优化策略(包括什么是优化器、GD、SGD、BGD、鞍点、Momentum、NAG、Adagrad、AdaDelta、RMSProp、Adam、AdaMa、Nadam、AMSGrad、AdaBound、AdamW、RAdam、Lookahead等18个知识点)
- 激活函数(包括什么是激活函数、激活函数的作用、identity、step、sigmoid、tanh、relu、lrelu、prelu、rrelu、elu、selu、softsign、softplus、softmax、swish、hswish、激活函数的选择等21个知识点)
- 常用损失函数(包括交叉熵损失、MSE损失以及CTC损失等3个知识点)
- 评估指标(包括Precision、Recall、mAP、IS、FID等5个知识点)
- 模型调优
- 学习率(包括什么是学习率、学习率对网络的影响以及不同的学习率率衰减方法,如:分段常数衰减等12个学习率衰减方法)
- 归一化(包括什么是归一化、为什么要归一化、为什么归一化能提高求解最优解速度、归一化有哪些类型、不同归一化的使用条件、归一化和标准化的联系与区别等6个知识点)
- 正则化(包括什么是正则化?正则化如何帮助减少过度拟合?数据增强、L1 L2正则化介绍、L1和L2的贝叶斯推断分析法、Dropout、DropConnect、早停法等8个知识点)
- 注意力机制 (包括自注意力、多头注意力、经典注意力计算方式等10个知识点)
- Batch size(包括什么是batch size、batch size对网络的影响、batch size的选择3个知识点)
- 参数初始化(包括为什么不能全零初始化、常见的初始化方法等5个知识点)
-
- 词表示 (包括one-hot编码、word-embedding以及word2vec等9个知识点)
- 循环神经网络RNN
- 长短时记忆网络LSTM
- 门控循环单元GRU
-
-
深度学习进阶篇
- 预训练模型
- 预训练模型是什么 (包括预训练、微调等2个知识点)
- 预训练分词Subword(包括BPE、WordPiece、ULM等3个知识点)
- Transformer(包括self-attention、multi-head Attention、Position Encoding、Transformer Encoder、Transformer Decoder等5个知识点)
- BERT(包括BERT预训练任务、BERT微调等2个知识点)
- ERNIE(包括ERNIE介绍、Knowledge Masking等2个知识点)
- 对抗神经网络
- encoder-decoder(包括encoder、decoder等2个知识点)
- GAN基本概念(包括博弈论、纳什均衡、输入随机噪声、生成器、判别器、损失函数、训练不稳定、模式崩溃等8个知识点)
- GAN应用(包括GAN在图像生成、超分辨率、图片上色等方面的应用)
- 预训练模型
-
深度学习应用篇
-
产业实践篇
-
强化学习篇
- 强化学习
- 强化学习基础知识点(包括智能体、环境、状态、动作、策略和奖励的定义)
- 马尔可夫决策过程 (包括马尔可夫决策过程、Model-based、Model-free三个知识点)
- 策略梯度定理 (包括策略梯度定理一个知识点)
- 蒙特卡洛策略梯度定理(包括蒙特卡洛策略梯度定理一个知识点)
- REINFORCE算法 (包括REINFORCE算法简介和流程两个知识点)
- SARSA(包括SARSA的公式、优缺点等2个知识点)
- Q-Learning(包括Q-Learning的公式、优缺点等2个知识点)
- DQN(包括DQN网络概述及其创新点和算法流程2个知识点)
- 强化学习
-
面试宝典
- 深度学习基础
- 为什么归一化能够提高求解最优解的速度?
- 为什么要归一化?
- 归一化与标准化有什么联系和区别?
- 归一化有哪些类型?
- Min-max归一化一般在什么情况下使用?
- Z-score归一化在什么情况下使用?
- 学习率过大或过小对网络会有什么影响?
- batch size的大小对网络有什么影响?
- 在参数初始化时,为什么不能全零初始化?
- 激活函数的作用?
- sigmoid函数有什么优缺点?
- RELU函数有什么优缺点?
- 如何选择合适的激活函数?
- 为什么 relu 不是全程可微/可导也能用于基于梯度的学习?
- 怎么计算mAP?
- 交叉熵为什么可以作为分类任务的损失函数?
- CTC方法主要使用了什么方式来解决了什么问题?
- 机器学习指标精确率,召回率,f1指标是怎样计算的?
- 卷积模型
- 预训练模型
- BPE生成词汇表的算法步骤是什么?
- Multi-Head Attention的时间复杂度是多少?
- Transformer的权重共享在哪个地方?
- Transformer的self-attention的计算过程是什么?
- 讲一下BERT的基本原理
- 讲一下BERT的三个Embedding是做什么的?
- BERT的预训练做了些什么?
- BERT,GPT,ELMO的区别
- 请列举一下BERT的优缺点
- ALBERT相对于BERT做了哪些改进?
- NSP和SOP的区别是什么?
- 对抗神经网络
- GAN是怎么训练的?
- GAN生成器输入为什么是随机噪声?
- GAN生成器最后一层激活函数为什么通常使用tanh()?
- GAN使用的损失函数是什么?
- GAN中模式坍塌(model callapse指什么?)
- GAN模式坍塌解决办法
- GAN模型训练不稳定的原因
- GAN模式训练不稳定解决办法 or 训练GAN的经验/技巧
- 计算机视觉
- ResNet中Residual block解决了什么问题?
- 使用Cutout进行数据增广有什么样的优势?
- GoogLeNet使用了怎样的方式进行了网络创新?
- ViT算法中是如何将Transformer结构应用到图像分类领域的?
- NMS的原理以及具体实现?
- OCR常用检测方法有哪几种、各有什么优缺点?
- 介绍一下DBNet算法原理
- DBNet 输出是什么?
- DBNet loss
- 介绍以下CRNN算法原理
- 介绍一下CTC原理
- OCR常用的评估指标
- OCR目前还存在哪些挑战/难点?
- 自然语言处理
- RNN一般有哪几种常用建模方式?
- LSTM是如何改进RNN,保持长期依赖的?
- LSTM在每个时刻是如何融合之前信息和当前信息的?
- 使用LSTM如何简单构造一个情感分析任务?
- 介绍一下GRU的原理
- word2vec提出了哪两种词向量训练方式
- word2vec提出了负采样的策略,它的原理是什么,解决了什么样的问题?
- word2vec通过什么样任务来训练词向量的?
- 如果让你实现一个命名实体识别任务,你会怎么设计?
- 在命名实体识别中,一般在编码网络的后边添加CRF层有什么意义
- 介绍一下CRF的原理
- CRF是如何计算一条路径分数的?
- CRF是如何解码序列的?
- 使用bilstm+CRF做命名实体识别时,任务的损失函数是怎么设计的?
- BERT的结构和原理是什么?
- BERT使用了什么预训练任务?
- 说一下self-attention的原理?
- 推荐系统
您要是能加入飞桨教育SIG,贡献新的深度学习知识点那就太好了!欢迎邮件咨询xutongtong@baidu.com,了解SIG成员权益,共同建设飞桨教育生态。