chullhwan-song/Reading-Paper

Deeper Text Understanding for IR with Contextual Neural Language Modeling

chullhwan-song opened this issue · 1 comments

Abstract

  • Bert는 IR 분야에서 더 깊은 텍스트 이해력을 제공한다. (deeper text understanding for IR)
  • 실험적으로도, Bert는 traditional word embeddings(? w2v)보다 더 뛰어남을 보임
  • bag-of-words retrieval model과도 비교해볼 때, 상황적인 언어모델(contextual language model)은 자연어로 쓰여진 쿼리를 더 크게 향상시킬수 있다.
  • 검색과 텍스트 이해능력이 결합하면, pre-trained BERT model의 향상을 이끌수 있고, 이를 이용한 훈련 셋이 제한된 관련 분야검색 task에서도 이익이된다.

Introduction

  • w2v의 co-occurrence를 이용하는것은, 단어의 동시 발생의 정보 이용은 텍스트의 이해하는데 단지 얇은 이해도만을 가지는것이다. (word co-occurrence is only a shallow bag-of words understanding of the text.)
  • 최근에 이러한 단점을 극복하려는 움직임 > ELMo, BERT
  • 이들 알고리즘은 "contextual" 하다.
    • 단어의 표현(representation)은 전체 input text의 하나의 함수이고, 단어의 종속성과 문자의 구조를 고려한다.

DOCUMENT SEARCH WITH BERT

  • (query, doc ) 를 입력으로 query에 대한 doc가 relevance한지를 판단.
  • 당연히 bert의 input도 (query, doc )
    • 실제로 query sentnece [SEP] doc sentence
  • 그림 1의 아래부분은 이를 설명.
    image
  • pretrained BERT model 이용 : https://github.com/google-research/bert
  • 알고리즘 설명은 이게 다. > BERT를 그대로 IR에 적용했기때문에 BERT를 읽어보는것이 좋을것같다.
  • document score (3가지)
    • the first passage (BERT-FirstP)
    • the best passage (BERT-MaxP)
    • the sum of all passage scores (BERT-SumP)
  • 이 score는 학습단계가 아니라, inference 단계에서...
    • 하지만 실제 학습 구성은 hint 로니 다음과 같이 구성해야할듯
      • BERT-FirstP는 doc의 첫째 sentence를 이용하는줄 알아았더니, 다음 예제를 보니, 그냥 하나의 문장으로만 처리하는듯하고, 나머지를 구분하여 다양하게 trainiset를 구성!!하는것처럼 보인다.
For BERT-FirstP:
622 Q0 LA032190-0143 1 -7.19601 indri # {title:"...", doc:"..content of documents.."}

For BERT-MaxP and BERT-AvgP:
622 Q0 LA032190-0143_1 1 -7.19601 indri # {title:"...", doc:"..content of first passage.."}
622 Q0 LA032190-0143_2 1 -7.19601 indri # {title:"...", doc:"..content of second passage.."}
622 Q0 LA032190-0143_3 1 -7.19601 indri # {title:"...", doc:"..content of third passage.."}

discussion

image

  • Table 2의 결과에서
    • BERT를 이용하면, search accuracy를 기본적으로 올리수 있다고 말함.
    • title queries(일반적 단어 쿼리..) 에서 보다 description queries(질문같은 설명이 곁들인 quesion?)에서 더 성능을 높일수 있다고 언급
    • contextualized text representations are more effective for IR than bag-of-words embeddings
  • Sources of effectiveness
    image
  • BERT-MaxP model 의 2 layer에서예인 Fig.2의 첫번재 예제에서,
    • description query : ‘Where are wind power installations located?’
    • doc sentence : ‘There were 1,200 wind power installations in Germany’
    • 이 있다면, doc의 ‘power’ 가 attention을 받는것을 볼수 있다. 동시에 query의 ‘power’가 가장 강한 attention을 받고 있다는 것!! 이것은 "query-document exact term matching" 이라 설명
    • the previous and next word of ‘power’ (bi-gram modeling). Fig.2참조
    • 이부분은 이전의 IR에서도..
  • plus, 여기에, Fig2의 두번째 예제에서, 쿼리에 where와 doc의 in이 강하게 attention되는 현상을 볼수 있는데, 이는 이전의 IR에서는 볼수 없었다.. 도리어 이들의 word는 stop word 취급을 받아왔다.
  • 정리하면, 이 결과들을 볼때, BERT는 "deeper text understanding"!!!결과를 볼수 있다.이 중요