/NLP_ability

总结梳理自然语言处理工程师(NLP)需要积累的各方面知识,包括各种面试题,基础知识,工程能力等等,提升核心竞争力

背景介绍

建立这个仓库是为了梳理自然语言处理(NLP)各个方面的知识,提升自己的核心竞争力。我觉得NLP是一个值得深耕的领域,所以希望可以不停的提升自己的段位!

微信公众号:NLP从入门到放弃

wechat

深度学习自然语言处理

1.Transformer/Bert

Transformer 相关知识 进度
史上最全Transformer面试题 已完成并上传
答案解析(1)-史上最全Transformer面试题 已经完成并上传
Pytorch代码分析--如何让Bert在finetune小数据集时更“稳”一点 已经完成并上传
解决老大难问题-如何一行代码带你随心所欲重新初始化bert的某些参数(附Pytorch代码详细解读) 已经完成并上传
3分钟从零解读Transformer的Encoder 已经完成并上传
原版Transformer的位置编码究竟有没有包含相对位置信息 已经完成并上传
BN踩坑记--谈一下Batch Normalization的优缺点和适用场景 已经完成并上传
谈一下相对位置编码 已经完成并上传
NLP任务中-layer-norm比BatchNorm好在哪里 已经完成并上传
谈一谈Decoder模块 已经完成并上传
Transformer的并行化 已经完成并上传
Transformer全部文章合辑 已经完成并上传

2.词向量-word embedding

  • 词向量面试题梳理
词向量面试题梳理 进度
史上最全词向量面试题-Word2vec/fasttext/glove/Elmo 已经完成并上传

3 句向量-sentence embedding

句向量模型相关知识 进度
句向量模型综述 持续更新中

无监督:

  • 统计词袋模型表示句子向量

    统计词袋模型相关知识 进度
    One-hot/TF-IDF-比较简单见综述文章的介绍即可 已经完成并上传
  • 词向量词袋模型

    词向量词袋模型相关知识 进度
    平均/tf-idf 词向量(word2vec/glove)实战效果详细对比
  • WMD

    WMD模型相关知识 进度
    WMD的简单理解(不涉及优化加速) 已经完成并上传
  • SIF

    SIF 相关知识 进度
    SIF论文详细解读
    SIF在中文文本上代码及效果解读
  • Power Mean 均值模型

  • Skip-Thought vecotrs

  • Quick-Thought Vectors

  • Doc2vec

有监督:

  • Cove

  • InferSent

  • Bert

文本相似度

文本相似度 相关知识 进度
基本相似度模型介绍

4. 机器翻译

机器翻译相关知识 进度
OpenNMT源代码解读(pytorch版)
手撕Seq2seq-attention机器翻译代码
基于seq2seq机器翻译的各种优化策略解读
subword相关论文详细解读
ConS2S论文详细解读
GNMT论文详细解读
Seq2seq过程图画版详细解读

5. 命名体识别

命名体识别相关资源 进度
HMM/CRF 详细解读
BiLstm-CRF详细解读
手撕BiLSTM-CRF代码
词典匹配命名体识别详细解读
命名体识别最新进展

6. 文本分类

文本分类相关知识 进度
TextCNN论文详细解读
手撕 TextCNN/Fasttext/Albert 文本分类
TextCNN/Fasttext/Albert 实际工作应用经验
多标签文本分类
文本分类各种优化策略和方法

7. 关键词提取

关键词提取相关知识 进度
TFIDF模型提取关键词解读
TextRank提取关键词
各种dirty工作技巧

搜索

搜索相关知识 进度
各种关于搜索的好文章资源总结-看到比较不错的就放上来

推荐系统

推荐系统相关知识 进度
各种关于推荐的好文章资源总结-看到比较不错的就放上来

模型部署

1.Kafka

2.Docker

3.Elasticsearch

4.Flask+nginx

5. Grpc

6. TensorRT

数据结构

主要是刷leetcode,和剑指offer,刷题不在多,在思路,在质量