作者:杨夕
项目地址:https://github.com/km1994/nlp_paper_study
个人介绍:大佬们好,我叫杨夕,该项目主要是本人在研读顶会论文和复现经典论文过程中,所见、所思、所想、所闻,可能存在一些理解错误,希望大佬们多多指正。
- 【关于 NLP】 那些你不知道的事
- 问题
- 作为一名 scholar,你是否和我一样,在刚入门 NLP 时,对于陌生领域有种无从下手,心存畏惧?
- 作为一名 scholar,你是否还在发愁如何找好的论文?
- 作为一名 scholar,你是否还在为 自己 的 英文阅读 能力跟不上 很烦恼?
- 作为一名 scholar,你是否还在为 看到 一篇好paper,但是复现不出 code 而心累?
- 作为一名 scholar,你是否还在为 有Good idea,Outstanding Experimental results,Beautiful Chinese manuscript,结果 Bad English manuscript, Poor Journal 而奔溃?
- 作为一名 scholar,你是否在为搞科研没人交流而自闭?
- 当你看到这一篇文档,你将不在为这些问题而烦恼,因为我们为你准备了一整套免费的从 论文查找->论文翻译->论文理解->相关代码搜索->写英文稿->科研学术交流 的路径。
- 那些你所不知道的事
- transformer_study transformer 论文学习
- Bert_study:Bert论文研读
- 【关于 Bert 模型压缩】 那些你不知道的事
- LCF: A Local Context Focus Mechanism for Aspect-Based Sentiment Classification
- Incremental Joint Extraction of Entity Mentions and Relations
- Joint Extraction of Entities and Relations Based on a Novel Decomposition Strategy
- GraphRel: Modeling Text as Relational Graphs for Joint Entity and Relation Extraction
- A Novel Hierarchical Binary Tagging Framework for Relational Triple Extraction
- LatticeLSTM
- named entity recognition using positive-unlabeled learning
- GraphRel: Modeling Text as Relational Graphs for Joint Entity and Relation Extraction
- TENER: Adapting Transformer Encoder for Name Entity Recognition
- CrossWeigh从不完善的注释中训练命名实体标注器
- 利用词汇知识通过协同图网络进行中文命名实体识别
- 一点注释对引导低资源命名实体识别器有很多好处
- CGN: Leverage Lexical Knowledge for Chinese Named Entity Recognition via Collaborative Graph Network(EMNLP2019)
- Fine-Grained Entity Typing in Hyperbolic Space(在双曲空间中打字的细粒度实体)
- LR-CNN:CNN-Based Chinese NER with Lexicon Rethinking(IJCAI2019)
- End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures【2016】
- ERNIE
- GraphRel
- R_BERT
- Task 1:全监督学习
- Task 2:远程监督学习
- Lattice CNNs for Matching Based Chinese Question Answering
- LSTM-based Deep Learning Models for Non-factoid Answer Selection
- Denoising Distantly Supervised Open-Domain Question Answering
- FAQ retrieval using query-question similarity and BERT-based query-answer relevance
- DC-BERT : DECOUPLING QUESTION AND DOCUMENT FOR EFFICIENT CONTEXTUAL ENCODING
- Multi-Perspective Sentence Similarity Modeling with Convolution Neural Networks
- Simple and Effective Text Matching with Richer Alignment Features
- Deep Structured Semantic Model
- ABCNN: Attention-Based Convolutional Neural Network for Modeling Sentence Pairs
- Enhanced LSTM for Natural Language Inference
- Bilateral Multi-perspective Matching
- Densely Interactive Inference Network(DIIN)
- 【关于 Domain/Intent Classification 】那些你不知道的事
- 【关于 槽位填充 (Slot Filling)】那些你不知道的事
- 【关于 上下文LU】那些你不知道的事
- 【关于 自然语言生成NLG 】那些你不知道的事
- 【关于 DSTC 】那些你不知道的事
- 【关于 E2E 】那些你不知道的事
- 【关于 rasa 安装 】那些你不知道的事
- 【关于 rasa 基本架构 】那些你不知道的事
- 【关于 rasa中文对话系统】那些你不知道的事
- 【关于 rasa中文对话系统构建】那些你不知道的事
- 【关于 rasa->NLU 】那些你不知道的事
- 【关于 rasa -> Core -> FormAction 】那些你不知道的事
- 【关于 rasa -> Core -> Stories 】那些你不知道的事
- 【关于 rasa -> Core -> Action 】那些你不知道的事
- CS224n 视频学习篇
- Lecture 1: Introduction and Word Vectors
- Lecture 2: Word Vectors and Word Senses
- Lecture 3: Word Window Classification, Neural Networks, and Matrix Calculus
- Lecture 4: Backpropagation
- Lecture 5: Dependency Parsing
- Lecture 6: Language Models and RNNs
- Lecture 7: Vanishing Gradients, Fancy RNNs
- Lecture 8: Translation, Seq2Seq, Attention
- Lecture 9: Practical Tips for Projects
- Lecture 10: Question Answering
- Lecture 11: Convolutional Networks for NLP
- Lecture 12: Subword Models
- Lecture 13: Contextual Word Embeddings
- Lecture 14: Transformers and Self-Attention
- Lecture 15: Natural Language Generation
- Lecture 16: Coreference Resolution
- Lecture 17: Multitask Learning
- Lecture 18: Constituency Parsing, TreeRNNs
- Lecture 19: Bias in AI
- Lecture 20: Future of NLP + Deep Learning
-
- Scrapy 爬虫 实战篇:主要介绍使用 scrapy 构建网络爬虫,并爬去百度搜索引擎数据
-
GCN 介绍篇
-
GCN 三剑客
-
经典篇
-
预训练篇
-
实战篇
- 项目目标
- 实现一个 基于 百度百科 的 ES 全文检索平台
- 项目流程
- step 1: 编写 网络爬虫 爬取 百度百科 数据;
- step 2: 爬取数据之后,需要进行预处理操作,清洗掉 文本中噪声数据;
- step 3: 将输入 导入 ES ;
- step 4: 利用 python 编写 后台,并 对 ES 进行查询,返回接口数据;
- step 5: ES 数据前端展示;
- step 6: 百度百科 知识图谱构建
- step 7:百度百科 知识图谱检索与展示
- 数据介绍:
- 本项目通过编写爬虫爬取 百度百科 数据,总共爬取 名称、链接、简介、中文名、外文名、国籍、出生地、出生日期、职业、类型、中文名称、代表作品、民族、主要成就、别名、毕业院校、导演、制片地区、主演、编剧、上映时间 等400多个 指标,共爬取数据 98000 条。
- 数据预处理模块
爬取的数据根据名称可以分为 人物、地点、书籍、作品、综艺节目等。
类别 | 指标量 | 数量 | 筛选方式 |
---|---|---|---|
人物 | 109 | 27319 | 国籍、职业、出生日期、出生地有一个不为空 |
地点 | 124 | 9361 | 地理位置、所属地区有一个不为空 |
书籍 | 45 | 3336 | 作者 不为空 |
作品 | 45 | 8850 | 主演为空,中文名称不为空 |
综艺节目 | 108 | 5600 | 主演、导演都不为空 |
-
1、wordCount
- 内容:运行原理,RDD设计,DAG,安装与使用
- 第1章 Spark的设计与运行原理(大概了解)
- 1.1 Spark简介
- 1.2 Spark运行架构
- 1.3 RDD的设计与运行原理
- 1.4 Spark的部署模式
- 第2章 Spark的安装与使用(主要内容)
- 2.1 Spark的安装和使用 (如果想在window上安装,参考https://blog.csdn.net/SummerHmh/article/details/89518567,之后可以用pyspark或者jupyter上进行学习)(地址有问题,可以使用这个https://www-eu.apache.org/dist/spark/spark-2.4.3/)
- 2.2 第一个Spark应用程序:WordCount
-
2、RDDStudy
- 内容:RDD编程,熟悉算子,读写文件
- 第3章 Spark编程基础
- 3.1 Spark入门:RDD编程
- 3.2 Spark入门:键值对RDD
- 3.3 Spark入门:共享变量(提升-分布式必备)
- 3.4 数据读写
- 3.4.1 Spark入门:文件数据读写
-
3、sparkSQLStudy
- 内容:DataFrame,SparkSQL
- 第4章
- 4.1 Spark SQL简介
- 4.2 DataFrame与RDD的区别
- 4.3 DataFrame的创建
- 4.4 从RDD转换得到DataFrame
-
4、Parquet_JDBC_IO_Study
-
5、MLlibStudy
- 内容:MLlib流设计,特征工程
- 第6章 Spark MLlib
- 6.1 Spark MLlib简介
- 6.2 机器学习工作流
- 6.2.1 机器学习工作流(ML Pipelines)
- 6.2.2 构建一个机器学习工作流
- 6.3 特征抽取、转化和选择
- 6.3.1 特征抽取:TF-IDF
- 6.3.4 特征变换:标签和索引的转化
- 6.3.5 特征选取:卡方选择器