PaperReading: A repository from sjyttkl

221.《Embedding-based Retrieval in Facebook Search》

siamese network+triplet loss+negative/positive sampling(显著提升点)+feature engineering+cascade methods+ANN

网友笔记

220.《Asking Clarifying Questions in Open-Domain Information-Seeking Conversations》，SIGIR2019

问题澄清，从IR的角度来解，构建了一个基于IR的数据集。其中，比较了传统的L2R的方式，同时给出了相关与IR相关的评估指标：MAP/MRR/NDCG。

关于问题澄清的业务思考：

（1）当人询问机器的时候，如果得不到想要的答案，会换种说法问问题，是人适应机器的过程；

（2）本质上对话是一个交互的过程，在人机对话的过程中，机器也要猜想人的意图，这点正是需要深入思考的。

219.《Generating Natural Answers by Incorporating Copying and Retrieving Mechanisms in Sequence-to-Sequence Learning》

现在看到这种工作，第一个想的是：如何兜底？出现Badcase如何修？不考虑这些问题，技术上确实是fancy的，但是实际应用的时候，如果没有兜底方案，那就很糟糕了。另外，不是所有问题都有很好的兜底方案。

218.《Predictive Multiplicity in Classiﬁcation》，ICML2020

为模型评估增加一个新的评估维度，在去年讨论较多的是模型的碳排放量，属于指标体系完善的一类工作。

217.《SoftSort: A Continuous Relaxation for the argsort Operator》，ICML2020

argsort的可微分实现，类似工作之前也有，但是这里是更加简单，更加高效的实现；在很久之前，有一些工作是针对metric做可微分优化的，但是实际上，似乎没有成为一种成熟的技术被推广开来。

216.《Deep Streaming Label Learning》，ICML2020

连续学习相关工作。

215.《AILA: A Question Answering System in the Legal Domain》，IJCAI2020

一个法律问答系统。

214.《A Unified Model for Financial Event Classification, Detection and Summarization》，IJCAI2020

multi-task的方式，一个模型（bert）解决多个问题，问题域：金融。

213.《Response Generation by Context-aware Prototype Editing》

响应生成一类经典的方法：结合检索+生成的方式。

212.《Language-agnostic BERT Sentence Embedding》

基于平行翻译语料，使用additive margin softmax训练的表征模型。可以用于从大规模语料中挖掘平行语料对，用于翻译模型训练。

211.ACL2020的最佳论文，《Beyond Accuracy: Behavioral Testing of NLP Models with CheckList》

有谁像我一样，第一次看到的时候，直接略过了。[允悲]在去年的一段时间，遇到模型上线难的问题，体现在多个方面：提升不明显的时候，冒烟测试可能根本过不了，甚至体验会下降；评估标准是多维度的，存在指标冲突的情况；Trade Off的事情不是容易的。产品经常会拿一些badcase报给算法，立刻fix掉还是周期性fix，是个问题。当时考虑的问题是：如何全面评估模型的问题？显然，benchmark是统计上的指标，产品同学可不这样看。因此，在之前的微博中也提到过从软件工程中借鉴一些测试的方法论。但是针对模型测试，要确定的是测试的维度。这篇文章就给出了一些比较general的测试维度，算是系统的模型测试方法论，但是文章没有回答的是：如何fix？关于fix的方式且看各种文章吧，有针对general做优化的，有针对特殊case做优化的。

在文章中，值得注意的是提到了黑盒测试所不能覆盖的方面。

这个工作感觉也可以产品化。基本思路是：数据诊断+模型诊断；诊断类型包括NLP，CV和语音（灌水看这里，CV和语音想必还没有类似工作）；可以做多平台多模型测试（一个用户痛点是：好多身边不做技术的朋友来问我，哪家的某个API比较好，模型界的王自健），站在产品的角度考察，完成的测试要考虑的因素就更多了，这篇文章也只考虑了一个比较大的维度。

最近琢磨的几个工作，算是和这类工作有相同感觉：

（1）吕正东：符号+神经的工作（不是那种模型+规则的路子）

（2）正则+神经的工作（FSL领域有一篇工作）

总体上，这篇工作还是比较实用的，可能大家都觉得是问题，但是没有系统的去做过梳理。

210.《SpanMlt-A Span-based Multi-Task Learning Framework for Pair-wise Aspect and Opinion Terms Extraction》，阿里ACL2020的工作

在去年的”之江杯“电商评论观点挖掘比赛中，定边界+组合pair做01关系分类已经有较多工作了，自己看到过pipeline的方式，这篇感觉使用了multi-task的方式。总体上，感觉没啥亮点，不过可以作为一个做切面情感分析的Trick来使用。

209.《Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering》

基于生成模型做开放式领域问答（本质上知识是存储在模型参数中的），分为两步：

第一步：给定问题，检索出相关文本片段

第二步：给定问题和相关文本片段，直接生成答案

208.《Simple and Effective Text Matching with Richer Alignment Features》，ACL2019

简单快速的文本匹配模型，实测快，效果稳。亮点是：对文本匹配的关键组件进行了思考。对比bert，两个模型会关注不同的aspect，理论上配合使用较好。

207.FSL的两篇文章：

《Improving Few-shot Text Classiﬁcation via Pretrained Language Representations》

《When Low Resource NLP Meets Unsupervised Language Model: Meta-pretraining Then Meta-learning for Few-shot Text Classiﬁcation》

两篇文章同一拨人，感觉是一个工作写了两次。主要**和205谈到的思路不同，和传统认识中的meta-learning比较类似，整体上看方案显得比较simple，但是提升比较明显。

206.《AutoML: A Survey of the State-of-the-Art》

AutoML的特色在NAS，同时存在一些自学习平台，比如达摩院的，和Google的，注意二者之间的区别。

205.FSL的两篇文章：

A纸：《Induction Networks for Few-Shot Text Classiﬁcation》，B纸：《Dynamic Memory Induction Networks for Few-Shot Text Classiﬁcation》，同一拨人的工作。上图是A的结果，中图是B的结果，下图解释了为啥baseline会高两个百分点，自己和自己的工作比，这样就很好，又不费事。证明了BERT还是强，不搞Trick，稳稳两个百分点的提升，不过这样就显得没啥insight了，不过工业界喜欢。但是另外的问题来了，A和B都有两个数据集，一个是公司内部的不能share无可厚非，但是为啥A用了一个，B用了另外一个呢？效果不好还是不能使用？（没说明，我还没想。。）。另外一个问题，搞FSL的都是C-kay-K-shot，实验都是C和K定了再给结论的吗？（好像对于挑出来的C和K，FSL的工作都不刻意说明。。超参吧？！），不过同一个topic，看同一拨人做，前后对比起来看，还是有启发的。

204.《Reinforcement Learning for User Intent Prediction in Customer Service Bots》，SIGIR2019

这篇文章是蚂蚁智能客服中“猜你想问”的一种实现方式，该问题是一个经典的Top-N推荐问题，这里转化为N步序列决策过程，本质上是学习多模型融合时的weight该如何分配的问题（这里主要是一些ranking模型），这种范式在互联网的很多场景下都是可以的，不过这里是用在了智能客服中的意图识别相关任务中。

其他应用包括：

（1）基于强化学习的交互式文本推荐

（2）基于强化学习的交互式澄清

（3）基于强化学习的客户路由

203.两篇关于NLP模型robustness的文章：

《Is BERT Really Robust? A Strong Baseline for Natural Language Attack on Text Classification and Entailment》

《Combating Adversarial Misspellings with Robust Word Recognition》

robustness一般讨论攻和防两端，此外，与数据增强也有一定的联系，不过最终的目的总是：更好的泛化能力。

202.《PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization》，ICML2020

重点考虑为了更好地满足生成式摘要设计的自监督任务。

201.《Recipes for building an open-domain chatbot》，ParlAI的工作

讨论对比了开放域对话的检索式，生成式，以及检索式+生成式三种方案。

200.《Dialog Policy Learning for Joint Clariﬁcation and Active Learning Queries》

Joint建模方式的几个观察：

（1）两个任务建模。比如这篇，比如联合意图识别和实体抽取

（2）多个任务建模。

（3）非常多任务建模。比如用seq2seq，mrc的思路统一建模。

本质上，希望一个模型能够做更多的事情，具体操作上有所不同。

199.《Towards Uniﬁed Dialogue System Evaluation: A Comprehensive Analysis of Current Evaluation Protocols》

闲聊对话系统的评估维度总结。

198.《Data Augmentation for Training Dialog Models Robust to Speech Recognition Errors》

ASR的错误一定要纠正之后，才能用于下游模型吗？关键看如何理解这些错误。

197.《Cross-domain Aspect Category Transfer and Detection via Traceable Heterogeneous Graph Representation Learning》，CIKM2019

核心**：利用电商场景下的用户行为，构造一个Graph（包含商品，用户，卖家等信息和行为），学习Graph的表示，用于评论切面检测任务。

个人想法：一个Graph的好的表示可以将多个研究对象纳入一个统一的表示空间（Pattern的量化），理论上可以用于很多下游任务。这篇文章选择了一个切面检测任务，不过看整体评测指标不算高，个人觉得有学术价值。除此之外，该工作与Few-Shot Learning也有关系，一定程度上有助于cold start问题的解决。

196.《POSITIONAL MASKING FOR LANGUAGE MODELS》

核心**:不仅mask token，position也可以mask。

195.最近两篇关于将BERT信息压缩到一个卷积网络的工作：

第一：将BERT的压缩到TextCNN，文章忘了。

第二：《Accelerating Natural Language Understanding in Task-Oriented Dialog》（ACL 2020 Workshop on NLP for Conversational AI），将DistillBERT压缩到一个CNN网络，用于Dialogue场景。

194.《Maximizing Subset Accuracy with Recurrent Neural Networks in Multi-label Classification》

和SGM的**类似，但是SGM没有引用这篇文章。用seq2seq做multi-label的问题。

193.《PoWER-BERT: Accelerating BERT inference for Classification Tasks》

The method works by eliminating word-vectors (intermediate vector outputs) from the encoder pipeline. We design a strategy for measuring the significance of the word-vectors based on the self-attention mechanism of the encoders which helps us identify the word-vectors to be eliminated

补充：

《DeFormer: Decomposing Pre-trained Transformers for Faster Question Answering》，ACL2020，加速问答模型

192.《Dense Passage Retrieval for Open-Domain Question Answering》，ACL2020

想起来ACL2017的文章《Reading Wikipedia to Answer Open-Domain Questions》，这两篇陈丹琦都在作者群中。但是上篇我理解将retrieval阶段由这篇的bm25/tf-idf换成了基于向量检索的方式（个人之前是基于SentenceBert做的），可以使用FAISS等向量检索服务。

所以：为啥中了ACL2020？

191.《Syntactic Search by Example》

个人非常喜欢的工作。demo

190.WWW2020的Best Paper，《Open Intent Extraction from Natural Language Interactions》

（从很久之前的某条微博搬来的）刚好match最近做的一些工作。第一个，OpenIE相关，最近参与做的类似Magi一样的工作,本质上是一个schema设计的问题。之前做意图分类，是Closed域内的问题，这篇文章通过针对意图的schema设计，用序列标注的思路抽取意图，一样的思路。不过存在的问题是，有些意图不会在对话上下文中存在明显的字符串，这和supervised oie与supervised ie之间的问题一样；另一方面，任务型Chatbot的落地方案中，特色在于表的设计，现在还是人工设计，表通常包括三个维度：领域，意图和槽。这篇文章其实一定程度上将意图的自动化推进了一步，领域和槽的自动化设计尚未涉及。最后，文章在序列标注上还是经典的BiLSTM+CRF，不过还有一些基于CRF的比较实用的Trick。总之，大致浏览下文章，甚和我意。不一定是多牛的工作，但是让人很舒服的工作。

补充（新补充）：《Automatic Discovery of Novel Intents & Domains from Text Utterances》

189.《Exploring Cross-sentence Contexts for Named Entity Recognition with BERT》

做法：句子间平滑。（方法简单有效），做法如下：

188.《Evaluating Natural Language Generation with BLEURT》

NLG生成新指标：BLEURT，感觉还是稍重的方案。

187.《Language Models are Few-Shot Learners》

GPT-3的原始论文。做了啥事？更大的GPT，以至于可以不用fine-tune了。（似乎应该可以想到）关于是否是因为训练数据过大，导致模型记住了数据而已，文章中也有讨论。

186.《CERT: Contrastive Self-supervised Learning for Language Understanding》

提出一种新的contrastive的SSL范式。针对原始样本，生成该样本的增强样本，两两判断增强样本是否来自一个原始样本。

185.《GECToR – Grammatical Error Correction: Tag, Not Rewrite》

标注方法类似于LaserTagger，基于序列标注的思路求解。通过迭代序列标注的方式做纠错。仍旧是基于合成数据，并且指标较低。

184.《Pretraining with Contrastive Sentence Objectives Improves Discourse Performance of Language Models》，Dan Jurafsky

这篇文章提到了一种预训练模型的技术，该技术可以提升模型获取篇章级表示的能力。一个简单的**是：设计更大的上下文学习任务（句子级别）。

183.《Stronger Baselines for Grammatical Error Correction Using Pretrained Encoder–Decoder Model》

基于合成数据做的。

182.《Efﬁcient strategies for hierarchical text classiﬁcation: External knowledge and auxiliary tasks》，ACL2020

用seq2seq来modeling层次文本分类。

181.《Masked Language Model Scoring》，ACL2020

一种基于MLM的计算PPL的方式，比较重的方案。

180.《Dialogue-Based Relation Extraction》，ACL2020

基于对话的关系抽取数据集，对话场景下的信息抽取在不同的任务中有不同的表示方式。

179.《Spelling Error Correction with Soft-Masked BERT》，ACL2020

检错模型（轻量级的GRU）+纠错模型（重量级的BERT），整体上是序列标注的思路

Soft-Masked BERT:文本纠错和BERT的最新结合

178.《Contextual Embeddings: When Are They Worth It?》,ACL2020

讨论一个问题：什么时候使用contextual embedding，什么时候使用static embedding？

static embedding：语言的变化性不多，数据标注丰富；

contextual embedding：language containing complex structure, ambiguous word usage, words unseen in training;

177.《Table Search Using a Deep Contextualized Language Model》

任务上有趣：表格搜索；但是，收获很小。

176.《Conversational Word Embedding for Retrieval-Based Dialog System》,ACL2020

训练数据：<post,reply>对

模型：传统词向量训练模型+微修

用法：单独使用和传统的Embedding一同使用

175.《Beyond Accuracy: Behavioral Testing of NLP Models with CheckList》，ACL2020

一种NLP中的行为驱动测试实现。

174.《Iterative Memory-Based Joint Open Information Extraction》，ACL2020

做开放信息抽取的工作，也就是开放SPO抽取相关。主要包含两个工作：

（1）无监督的方式搞数据；（一个score&filter方案）

（2）生成的方式生成多个spo；decoder端每次只去生成一个spo，然后将生成的spo和原始输入做融合，生成第二个spo；

173.《DIET: Lightweight Language Understanding for Dialogue Systems》

rasa内置的一个intent classification和entity extraction结合做的模型。想法上比较有特色的是：

（1）结合masked方式做训练

（2）对label进行embedding，similarity作为loss的输入。而非传统的不对label做embedding，直接算ce loss；

172.《End-to-end LSTM-based dialog control optimized with supervised and reinforcement learning》

比较早的文章了，第一篇用end2end的方式做task-oriented的bot。supervised learning可以用较少的数据给reinforcement learning提供一个好的initial state。一般而言，玩法是建立在一个多分类任务上，对history的利用是关键。

171.《Enabling Language Models to Fill in the Blanks》

提出一种预训练LM的输入/输出构建方式。输入是包含Blank的句子，输出是输入和Blank对应Token的并（用Answer符号显式拼接）。对比T5，采用seq2seq，输出端不包含输入。一种想法是：输出包含输入，在作用上可以类比seq2seq中的encoder的作用，好处是不需要一个单独的encoder。因此也就能够讲得通T5在输出端不需要包含输入。该工作用于故事生成，用Blank替换一段故事描述，采用预训练LM生成该描述，类比于改写的工作。

至此，对于包含Blank的输入，输出如何构建才能得到一个好的预训练LM，看到的有以下方式：

（1）从左到右生成原始句子

（2）从右到左生成原始句子

（3）输入和原始句子的并

（4）输入和Blank对应Token的并（用Answer符号显式拼接）

（5）Blank对应Token的并（用Answer符号显式拼接，类比T5）

170.《A Simple Framework for Opinion Summarization》

169.《Fine-grained Fact Veriﬁcation with Kernel Graph Attention Network》，ACL2020

之前做过一个事实性校验的工作。典型的场景是这样的：给定一句话包含对一个人物的描述，如”zhpmatrix在杭州工作，做NLP方向的工作，balabala...“，也就是说这句话能够精准定位一个人物：zhpmatrix，但是这句话中可能某个地方错了（事实性错误），现在要检查并修正这个事实性错误。

一般的思路是：需要一个参照上下文，这个上下文的存在方式可以是知识图谱，可以是非结构化的对该人物的描述等。如果是知识图谱，则存在实体消歧的问题，会引入另外一个模型；这篇文章采用的思路是后者。

modeling：建模为一个多分类问题。（KGA是这篇工作的内容，个人不是特别感兴趣。）

168.《On the Robustness of Language Encoders against Grammatical Errors》，ACL2020

讨论BERT系用于中文纠错的robustness问题（这个问题在基于BERT的相关工作中基本都可以看到，不过不同任务对robustness的敏感度不同，比如文本分类一般认为是对于鲁棒性不敏感的任务），解决的思路：adversarial learning（其实也是一个常见的思路了）。具体方法：构建一些样本（如何构建是关键）和原始训练样本一块训练。

167.《DCR-Net: A Deep Co-Interactive Relation Network for Joint Dialog Act Recognition and Sentiment Classiﬁcation》

joint learning with dialog act recognition and sentiment classification

166.《Mapping Natural Language Instructions to Mobile UI Action Sequences》ACL2020

解决的任务：

解决的方法：（相似的**：如何将序列标注任务转化为一个seq2seq呢？在今天组里的分享中同样提到这个观点）

165.知识驱动对话的两个应用工作：

《A Knowledge-Grounded Neural Conversation Model》

《Learning to select knowledge for response generation in dialog systems》

164.《A Survey on Dialog Management: Recent Advances and Challenges》

小蜜北京团队最新关于对话管理的综述文章。讨论了scalability，data sparsity, training efficiency的三个问题。总结：工业界还是写if...else...，研究上可以做一些RL的探索，最近蚂蚁做对话的人来公司交流的时候，说他们就在做类似工作。

163.《StructBERT:Incorporating Language Structures into Pre-training for Deep Language Understanding》,ICLR2020

达摩院的关于bert的工作，作为基础模型在推广。

162.《Enriched Pre-trained Transformers for Joint Slot Filling and Intent Detection》

slot filling and intent classification同时做，基本是在达摩院之前的工作基础上加了一些东西。

161.《Look at the First Sentence: Position Bias in Question Answering》

非常有意思的文章，讨论了QA中的positional bias问题。

160.《Code-Switching for Enhancing NMT with Pre-Specified Translation》，NAACL2019

很实用的工作。利用用户词典和电商术语库提升翻译质量。简单来说，之前的方式是用一个特殊符号占位，翻译对应的词；特殊符号和原始上下文在一定程度上会破坏原始的语义信息。这里采用的是另外一种方式(假设中英翻译，其实是另外一种占位，不过semantic上似乎更加合理一些)：

原文：病越来越厉害

中间原文：sick越来越厉害

翻译结果：sick is worse

总结：机器翻译中的干预机制是一个小方向，非常具有实用价值，相关工作应该有不少。

159.《How Does NLP Benefit Legal System: A Summary of Legal Artificial Intelligence》ACL2020

比赛，相关文章，还有这篇，法律领域的PR稿？

158.《BLEU Neighbors: A Reference-less Approach to Automatic Evaluation》

梳理了相关评价指标的一些工作。

157.《LightPAFF: A Two-Stage Distillation Framework for Pre-training and finetuning》

这篇文章的技术思路风格和之前读过的一篇关于BT的文章很是类似。

156.《Coach: A Coarse-to-Fine Approach for Cross-domain Slot Filling》,ACL2020

文中的template regularization比较有意思。整体上的思路是coarse-to-fine，是实体识别中的标准范式（比如通常第一步是边界预测，第二步是类型预测）；

155.《Learning to Rank with BERT in TF-Rankings》

最近做问答，一个比较general的框架最后是一个ranking模型，这篇文章没有单独将ranking模型剥离出来，而是和BERT一块modeling，思路上有启发性。

融合词典的信息用于NER的三篇工作，黄萱菁老师组感觉对这个topic很感兴趣。去年ACL2019有篇PU Learning搞的。

《Chinese NER Using Flat-Lattice Transformer》ACL2020

把Lattice LSTM中对词的利用拍平。

《Simplify the Usage of Lexicon in Chinese NER》，ACL2020

工作在思路上类似ZEN。

sjyttkl/PaperReading