NL-172, Deeper Text Understanding for IR with Contextual Neural Language Modeling, SIGIR 2019

◼ Comment

  • BERT을 검색에서 활용하는 거에 대해 연구한 논문이다.
    • 사실 지금보면 컨트리뷰션이 크게 없다. 
    • 그냥 BERT을 검색 테스크에 fine-tuning시킨 것
  • 또한 cross-encoder형태로 입력을 concat하여서 넣기 때문에 대규모 검색 시스템에선 사용할 수 없다.
    • 왜 bi-encoder 식으로 안했지?
  • 아무튼, Bert을 쓰면 기존의 모델모다 좋다는 것이다.
    • query가 title과 description일때 나눠서 실험했는데, description인 경우에 효과적으로 향상한다.
    • 아마 title은 짧은 키워드들로 이뤄졌기 때문에 기존의 모델들도 어느정도 작동하는데 description식 검색은 기존의 모델이 잘 처리하기 어려웠을 것이다.
  • 예시를 들어서, BERT가 이전 모델의 모듈 (ngram, 동의어)들이 작동하는 방식을 흉내내는 것처럼 말하는데 너무 체리픽인거 같다.
  • 5.2에서는 narrative query에 대해서도 조사한다.
    • narrative query는 기존 질의에서 구둣점, 불용어 (접미사, 별의미없는것들) 등을 제거하여 만들었다고 한다.
    • 근데 BERT는 제거하니까 오히려 성능이 떨어졌다.
    • 즉 불용어와 구두점은 정보 요구를 정의하지 않지만 언어의 구조를 구축하기 때문이다.
    • BERT는 이러한 구조를 캡처할 수 있으므로 flat bag-of-words보다 더 깊은 쿼리 이해를 달성할 수 있다.
  • 또한, 학습할 때, 먼저 bing log로 학습하고 진행하면 성능이 올라간다.
    • 단순히 더 많은 데이터를 썼다고 생각할 수도 있고
    • 간단한 domain adaptation이라 생각할 수도 있는거 같다.

0 Abstract

  • neural 네트워크들은 query-document relations과 복잡한 언어 패턴들을 자동으로 학습하는데 새로운 가능성을 제공한다.
  • Neural IR 모델들은 query-document relevance 패턴들을 학습하는데 신뢰할만한 결과를 달성했지만, query 또는 documnet의 text content을 이해하는 탐구들은 거의 수행되지 않았다.
  • 이 논문에서는 최근 제안된 contextual neural language model, BERT을 레버리지에서 IR을 위한 깊은 text understanding을 제공한다.
  • 실험결과들은 BERT로부터 contextual text representations가 traditional word embedding보다 더욱 효과적임을 입증한다.
  • bag-of-words retrieval models과 비교하여, contextual language model은 language structures을 더욱 잘 레버리징하여서, 자연어로 쓰여진 query들에 대해 큰 성능향상을 가져온다.
  • 텍스트 이해 능력과 search knowledge을 결합하면 훈련 데이터가 제한된 관련 검색 작업에 도움이 될 수 있는 사전 훈련된 BERT 모델이 향상됩니다.

1 INTRODUCTION

  • Text retrieval은 document meanings와 search task을 이해하는 것을 요구한다.
  • neural networks은 그들이 raw document text와 training data로부터 이해하기 때문에 매력적인 솔루션이다.
  • 대부분의 neurla IR 방법들은 query-document 관계 패턴들을 학습하는데 집중하고, 즉 이 패턴은 search task에 대한 knowledge이다.
  • 그러나, 관계 패턴들을 학습하는 것은 많은 양의 학습 데이터를 요구하지만 아직 tail queries 혹은 new search domains에 대해 잘 일반화되지 않는다.
    • 이러한 이슈들은 사전 훈련된 일반목적인 텍스트 이해 모델을 바람직하게 만듭니다.
  • word2vec과 같은 pre-trained word representations은 neural IR에서 널리 사용되어왔다.
    • 그들은 큰 corpus에서 word 동시발생 (co-occurrence)을 학습하고, 동의어와 관련된 단어들에대해 힌트들을 제공한다.
    • 그러나, word co-occurrence은 단지 텍스트의 shallow bag-of-words 이해이다.
  • 최근에는, 우리는 ELMo, BERT와 같은 pre-trained neural LM들의 소개와함께 텍스트 이해에 빠른 진행을 봐왔다.
  • 전통적인 word embeddings와 달리, 그들은 contextual하다.
    • 단어의 representation은 word dependencies와 sentence structures을 고려한 전체 입력 텍스트의 function이다.
    • 모델들은 많은 수의 documents로 pre-trained되어서 contextual representations이 일반적인 언어 패턴들을 인코딩할 수 있게한다.
    • contextual neural language models은 다양한 NLP tasks의 전통적인 word embeddings보다 뛰어나다.
    • conetxtual neural language models의 deeper text understanding은 IR에 새로운 가능성을 가져온다.
  • 이 논문은 ad-hoc documnet retrieval을 위해 BERT을 레버리지하는 것을 탐구한다.
  • BERT는 neural LM의 SoTA이다.
    • 이는 검색 테스크 또한 잘 맞는다.
    • BERT is trained to predict the relationship between two pieces of text (typically sentences); and its attention-based architecture models the local interactions of words in text with words in text. 
  • 이는 interaction-based neural ranking model로 간주될 있고, 그래서 최소한의 검색 아키텍트 엔지니어링만이 요구된다.
  • 이 논문은 ad-hoc document retrieval에서 BERT의 language understanding의 효과를 탐구한다.
    • 서로 다른 특성을 가진 두 개의 adhoc retrieval 데이터 세트에서 BERT 모델을 검사합니다.
  • 실험은 제한된 양의 검색 데이터로 사전 훈련된 BERT 모델을 미세 조정하면 강력한 기준선보다 더 나은 성능을 달성할 수 있음을 보여줍니다.
    • 기존 검색 모델의 관찰과 달리 긴 자연어 쿼리는 BERT를 사용하여 짧은 키워드 쿼리보다 큰 차이로 성능이 향상될 수 있습니다.
    • 기존 검색에서는 짧은 키워드 쿼리들이 자연어 쿼리보다 성능이 좋았다?
    • 추가 분석에 따르면 기존의 IR 접근 방식에서 종종 무시되는 불용어와 구두점은 문법 구조와 단어 종속성을 정의하여 자연어 쿼리를 이해하는 데 중요한 역할을 합니다.
    • 마지막으로 대규모 검색 로그의 검색 지식으로 BERT를 향상하면 텍스트 이해와 검색 작업 모두에 대한 지식을 갖춘 사전 훈련된 모델이 생성되어 레이블이 지정된 데이터가 제한된 관련 검색 작업에 도움이 됩니다.

2 RELATED WORK

  • 최근 신경 IR 모델은 쿼리-문서 관련성 패턴 학습에서 유망한 진전을 이루었습니다.
  • 한 연구 라인은 click logs[1, 9] 또는 pseudo-relevance feedback[2]의 검색 신호를 사용하여 검색 작업[1, 2, 9]에 맞게 조정된 텍스트 프레젠테이션을 학습합니다.
  • 또 다른 연구 라인은 exact match signals [4] and passage-level signals [7]와 같은 다양한 matching features을 캡처하기 위해 신경 구조를 설계합니다.
  • 쿼리/문서의 텍스트 콘텐츠를 이해하는 방법은 덜 탐색됩니다. 
  • 대부분의 신경 IR 모델은 Word2Vec [5]와 같은 단어 임베딩이 있는 텍스트를 나타냅니다.
  • 컨텍스트를 통합하여 전통적인 단어 임베딩을 개선하기 위해 컨텍스트 신경 언어 모델이 제안됩니다[3, 8].
  • 가장 성능이 좋은 신경 언어 모델 중 하나는 BERT입니다[3]. 
  • BERT는 언어의 일반적인 패턴을 학습하기 위해 대규모 개방형 도메인 문서에 대해 사전 교육을 받았습니다.
  • 사전 훈련 작업에는 문장 내 단어 예측과 두 문장의 관계가 포함됩니다.
  • BERT는 통과 순위 작업을 포함하여 다양한 NLP 작업에 대한 최신 기술을 발전시켰습니다[6].
  • 표준 문서 검색 작업에 대한 효율성은 아직 연구 중입니다.

3 DOCUMENT SEARCH WITH BERT

  • This work uses an off-the-shelf BERT architecture, the sentence pair classification architecture described by Devlin [3], as shown in Figure 1. 
  • 이 모델은 두 세그먼트를 구분하는 특수 토큰 '[SEP]'을 사용하여 쿼리 토큰과 문서 토큰의 연결을 입력으로 사용합니다.
  • 토큰은 임베딩에 포함됩니다.
  • document에서 쿼리를 추가로 분리하기 위해 segment embeddings 'Q'(쿼리 토큰용) 및 'D'(문서 토큰용)가 토큰 임베딩에 추가됩니다.
  • word order를 캡처하기 위해 position embeddings 이 추가됩니다. 
  • 토큰은 여러 layers의 transformers를 거칩니다.
    • 각 레이어에서 다른 모든 토큰의 임베딩을 가중 합산하여 각 토큰에 대해 새로운 상황별 임베딩이 생성됩니다.
    • 가중치는 여러 어텐션 매트릭스(멀티 헤드 어텐션)에 의해 결정됩니다.
    • attentions이 강한 단어는 대상 단어와 더 관련이 있는 것으로 간주됩니다.
    • 다양한 어텐션 매트릭스는 정확한 일치 및 동의어와 같은 다양한 유형의 단어 관계를 캡처합니다.
    • 쿼리와 문서의 상호 작용이 고려되도록 쿼리와 문서에 주의를 기울입니다.
  • 마지막으로 첫 번째 토큰의 출력 포함은 전체 쿼리-문서 쌍에 대한 표현으로 사용됩니다.
  • 다층 퍼셉트론(MLP)에 입력되어 관련 가능성(이진 분류)을 예측합니다.
  • 모델은 사전 훈련된 언어 모델을 활용하기 위해 사전 훈련된 BERT 모델로 초기화되며, 마지막 MLP 계층은 처음부터 학습됩니다.
  • 교육 중에 전체 모델은 더 많은 IR 관련 representations을 학습하도록 조정됩니다.
  • Passage-Level Evidence. 
    • BERT을 긴 문서들에게 적용하는 것은 매번 tokens 쌍을 상호작용하는 복잡성 떄문에 메모리 사용과 run time을 증가시키긴다.
    • sentence 훈련 모델은 긴 텍스트에 덜 효과적일 수 있다.
    • 우리는 document 검색을 위해 간단한 passage-level 접근법을 채택한다.
    • 우리는 document을 ovelapping passages로 나눈다.
    • neural ranker은 각 passage의 연관성을 독립적으로 예측한다.
    • document score은 첫번째 passage의 score (BERT-FirstP), 가장 좋은 passage (BERT-MaxP) 혹은 모든 passage scores의 합 (BERT-SumP)이다.
    • 즉 인퍼런스할때, document을 여러 passage로 overlappiong하게 쪼개고, 쪼개진 passage와 query와의 점수를 계산한다.
    • 각 passage 점수를 합을 낼지, 가장 높은 것을 사용할지, 첫번째 passage 것을 사용할지는 사용자 선택느낌
    • 학습에서는, passage-level labels은 이 연구에서 사용되지 않는다.
    • 우리는 관련 document의 모든 passages을 관련성이 있는 것으로 간주하고 그 반대의 경우도 마찬가지입니다.
    • 즉 쪼개진 passage는 다 같은 레이블을 가진다.
    • 문서 제목을 사용할 수 있는 경우 컨텍스트를 제공하기 위해 모든 구절의 시작 부분에 제목이 추가됩니다.
  • Augmenting BERT with Search Knowledge. 
    • 몇 검색 테스크들은 general text understanding (즉, Honda는 자동차 회사이다.)와 좀 더 구체적인 검색 지식 (즉. 사람들은 Honda에 대한 특별한 제공을 보고 싶어한다.) 둘 다를 요구한다.
    • pre-trained BERT는 general language patterns을 인코딩하는대신, 검색 지식은 labeled search data로부터 학습되어야한다.
    • 이러한 데이터는 종종 획득하기 비싸고 수집하는데 시간이 걸린다.
    • language understanding knowledge and search knowledge을 모두 갖춘 pre-trained ranking model을 가지는 것이 바람직하다.
    • 우리는 search knowledge을 가진 BERT을 매우 큰 search log에 대해 튜닝해서 보강한다.
    • 풍부한 검색 지식은 수십 또는 수백 개의 레이블이 지정된 검색 예제만 사용할 수 있는 관련 검색 작업에 도움이 될 것으로 예상됩니다.
  • Discussion. 
    • 검색 작업에 BERT를 적용하기 위해 약간의 조정만 이루어집니다. 
    • 긴 문서를 처리하기 위한 passage-based 접근 방식과 multiple document fields를 처리하기 위한 concatenation 방식입니다.
    • 우리의 목표는 아키텍처를 크게 확장하는 것이 아니라 검색을 위한 BERT의 상황화된 언어 모델의 가치를 연구하는 것입니다.

4 EXPERIMENTAL SETUP

  • Datasets. 
    • 서로 다른 특성을 가진 두 가지 표준 텍스트 검색 컬렉션을 사용합니다. 
    • Robust04는 50만 개의 문서와 249개의 쿼리가 있는 뉴스 코퍼스입니다.
    • 짧은 키워드 쿼리(title)와 긴 자연어 쿼리(description)의 두 가지 버전의 쿼리가 포함됩니다.
    • 관련성 평가를 위한 지침으로 narrative도 포함됩니다.
    • 예는 표 1에 나와 있습니다.
    • ClueWeb09-B에는 5천만 개의 웹 페이지와 제목 및 설명이 포함된 200개의 쿼리가 포함되어 있습니다.
    • 구절은 75단어의 보폭이 있는 150단어 슬라이딩 윈도우를 사용하여 생성됩니다.
    • ClueWeb09-B의 경우 각 구절의 시작 부분에 문서 제목이 추가됩니다.
    • 검색 데이터로 BERT를 보강하기 위해 Dai [1]의 도메인 적응 설정을 따르고 동일한 Bing 검색 로그 샘플을 사용합니다.
    • 샘플에는 0.1M 쿼리와 5M 쿼리-문서 쌍이 포함되어 있습니다.
  • Baselines and Implementations.
    • Unsupervised baselines은 Indri의 BOW(Bag of Words) 및 SDM(순차 종속성 모델 쿼리)을 사용합니다.
    • Learning-to-rank baselines에는 RankSVM 및 단어 모음 기능이 있는 Coor-Ascent가 포함됩니다[1].
    • Neural baselines에는 DRMM[4] 및 Conv-KNRM이 포함됩니다.
    • DRMM은 word2vec[5]를 사용하여 단어 소프트 일치를 모델링합니다.
      • 두 데이터 세트에서 가장 성능이 좋은 신경 모델 중 하나인 것으로 나타났습니다[4].
    • Conv-KNRM은 검색 작업을 위한 n-gram 임베딩을 학습하고 대용량 검색 로그에 대해 학습할 때 강력한 성능을 보여줍니다[1].
    • Bing에 적응된 Conv-KNRM은 domain adaptation[1]으로 훈련되었을 때 상태 신경 IR 모델이었으며 Bing에 의해 증강된 BERT와 비교됩니다.
    • BERT 모델은 Google에서 출시한 구현을 기반으로 합니다.
    • 기준선은 표준 불용어 제거 및 형태소 분석을 사용합니다. 
    • BERT는 raw 텍스트를 사용합니다.
    • Supervised 모델은 5-fold cross-validation을 통해 BOW에서 검색한 상위 100개 문서의 순위를 재지정하는 데 사용됩니다.
    • 공간 제한으로 인해 nDCG@20만 보고합니다. 
      • 유사한 경향이 nDCG@10 및 MAP@100에서 관찰되었습니다. 
    • 소스 코드 및 관련 리소스가 공개됩니다.

5 RESULTS AND DISCUSSION

  • 이 섹션에서는 
    • document retrieval tasks에 대한 BERT의 효과, 
    • 여러 유형의 쿼리 간의 차이점, 
    • 검색 로그로 BERT를 향상시키는 효과를 연구합니다.

5.1 Pre-trained BERT for Document Retrieval

  • 각 순위 방법의 순위 정확도는 표 2에 나와 있습니다.
    • Robust04에서 BERT 모델은 query titles에서 10% 마진과 description queries에서 20% 마진으로 기준선보다 지속적으로 더 나은 검색 정확도를 달성합니다.
    • ClueWeb09-B에서 BERT는 title queries에서 Coor-Acent와 비슷하며 description queries에서 더 좋습니다.
  • 결과는 document retrieval, 특히 description queries에서 BERT의 효율성을 보여줍니다.
  • neural rankers 중에서 Conv-KNRM의 정확도가 가장 낮습니다.
  • Conv-KNRM은 처음부터 n-gram 임베딩을 학습해야 합니다. 
    • large search log[1]에서 학습할 때는 강력하지만 적은 양의 데이터로만 학습할 때는 과적합되는 경향이 있습니다. 
    • BERT는 사전 학습되었으며 과적합될 가능성이 적습니다.
  • DRMM은 pretrained word embeddings이 있는 단어를 나타냅니다. 
    • BERT 모델의 더 나은 성능은 맥락화된 텍스트 표현이 단어 모음 임베딩보다 IR에 더 효과적이라는 것을 보여줍니다.
  • Sources of effectiveness.
    • 그림 2는 description query와 sentence간의 관계를 예측할 때, BERT-MaxP 모델의 2개의 layer을 보여준다.
      • description query ‘Where are wind power installations located?’
      • sentence ‘There were 1,200 wind power installations in Germany’. 
    • Example 1은 document word 'power'에 의해 받은 attention을 보여준다.
      • 가장 강한 attention은 쿼리의 'power'(query-document exact term matching)와 'power'의 previous 및 next 단어(bi-gram modeling)에서 나옵니다.
      • 근데 이거는 너무 체리픽 아닌가? 항상 그런건 아닐건데 당연
      • words와 n-gram의 local matching은 강력한 neural IR features인 것으로 입증되었습니다[1, 4]. BERT도 캡처할 수 있습니다.
    • Example 2은 query word 'where'로부터 가장 강력한 attention을 받는 것은 document word 'in'이다.
      • word 'in'은 'in Germany'의 컨텍스트로부터 나타나고, 이것은 'where' question을 만족시킨다.
      • 'in'와 'where'와 같은 단어들은 corpus에서 그들의 높은 document frequency 때문에 종종 전통적인 IR 방법들에 의해 무시된다.
      • 이 예제는 deeper text understanding을 보여주고, 이러한 stop words (불용어)은 실제로 relevance에 관한 중요한 evidence을 제공한다.
    • 요약하면, BERT의 장점들은 데이터와 구조에 있다.
    • transformer 구조는 BERT가 다양한 효과적인 matching features을 추출한다.
    • transformers들은 이미 large corpus에서 pre-trained 되었고, few training data을 가진 search tasks 또한 deep network로부터 이점을 가진다.
  • Title queries vs. description queries. 
    • BERT 모델은 description queries에서 더 큰 이득을 얻습니다.
    • Robust04에서, description queries을 사용한 BERT-MaxP는 best title query baseline (SDM)보다 23% 성능향상을 가져온다.
      • 대부분 다른 ranking methods은 titles와 비교하여 descriptions에서 유사하거나 나쁜 성능을 갖는다.
      • 우리가 아는한, 우리가 description queries가 title queires보다 큰 마진으로 높은 성능을 달성하는 것은 처음이다.
    • ClueWeb09-B에서 BERT는 titles과 descriptions 사이의 간격을 줄입니다.
      • 직관적으로 description 쿼리는 더 풍부한 정보를 전달해야 하지만 term importance를 추정하기 어렵기 때문에 기존의 bag-of-words 방법에서는 이를 완전히 활용하기 어렵습니다.
    • 우리의 결과는 더 긴 자연어 쿼리가 실제로 키워드보다 더 표현력이 뛰어나고 더 풍부한 정보를 효과적으로 활용하여 심층적이고 상황에 맞는 신경 언어 모델을 사용하여 검색을 개선할 수 있음을 보여줍니다.
    • 다양한 유형의 검색 쿼리를 이해하는 BERT의 능력에 대한 추가 분석은 섹션 5.2에서 제공됩니다.
  • Robust04 vs. ClueWeb09-B. 
    • BERT 모델은 ClueWeb09-B보다 Robust04에서 더 잘 수행됩니다.
    • 이것은 아마도 Robust04가 사전 훈련된 모델에 더 가깝기 때문일 것입니다. 
    • Robust04에는 잘 작성된 기사가 있습니다.
      • 쿼리는 텍스트 의미 이해에 크게 의존하는 사실을 찾습니다.
    • ClueWeb09-B 문서는 표, 탐색 모음 및 기타 불연속 텍스트를 포함하는 웹 페이지입니다.
    • 이 작업에는 페이지 권한과 같은 웹 검색 관련 문제도 포함됩니다.
    • 이러한 검색 관련 지식을 학습하려면 더 많은 학습 데이터가 필요할 수 있습니다.
    • 섹션 5.3에서 이 가능성을 조사합니다.

5.2 Understanding Natural Language Queries

  • 이 섹션에서는 서로 다른 수준의 텍스트 이해가 필요한 세 가지 유형의 쿼리(title, description, and narrative)에 대한 BERT를 살펴봅니다.
  • 문법 구조의 효과를 테스트하기 위해 removing stopwords and punctuation을 제거하여 description and narrative의 키워드 버전을 생성합니다.
  • BERT가 내러티브의 논리를 이해하는 방법을 테스트하기 위해 negative conditions을 제거하여 내러티브의 'positive' 버전을 생성합니다 (예: "Not relevant are documents...").
  • 표 3은 Robust04에서 SDM, Coor-Acent 및 BERT-MaxP의 성능을 보여줍니다.
  • 지도 방식은 내러티브에 대한 BOW의 낮은 리콜로 인해 내러티브를 사용하여 제목 쿼리 초기 결과의 순위를 다시 지정합니다. 
  • 내러티브는 다른 유형의 쿼리보다 이점을 제공합니다.
  • SDM은 타이틀에서 가장 잘 작동합니다. 
  • Coor-Acent는 설명과 내러티브가 적당히 더 좋습니다.
  • 두 가지 방법은 용어 빈도만을 기준으로 단어에 가중치를 부여하지만 단어 중요도는 전체 쿼리의 의미에 따라 달라집니다.
  • 대조적으로 BERT-MaxP는 단어 의미와 컨텍스트를 모델링하여 긴 쿼리를 크게 개선합니다.
  • 키워드 버전은 SDM 및 Coor-Acent에 대한 원래 쿼리보다 성능이 더 좋습니다. 
  • 불용어는 TF와 같은 기존 일치 신호에 노이즈가 많기 때문입니다.
  • 반대로 BERT는 원래의 자연어 쿼리에 더 효과적입니다.
    • 불용어와 구두점은 정보 요구를 정의하지 않지만 언어의 구조를 구축합니다.
    • BERT는 이러한 구조를 캡처할 수 있으므로 flat bag-of-words보다 더 깊은 쿼리 이해를 달성할 수 있습니다.
  • 표 3은 BERT의 한계도 보여줍니다.
  • 내러티브에서 negative logic conditions의 증거를 활용할 수 없습니다. 
    • negative conditions을 제거해도 성능이 저하되지 않습니다.

5.3 Understanding the Search Task

  • 말뭉치 훈련 텍스트 표현이 항상 검색 작업과 일치하지는 않습니다[9].
  • 검색 관련 지식이 필요하지만 교육을 위해서는 레이블이 지정된 데이터가 필요합니다.
  • Dai[1]는 리소스가 적은 검색 작업을 위해 관련 도메인에서 검색 패턴을 학습하는 유망한 결과를 보여줍니다.
  • 마지막 섹션에서는 BERT의 언어 모델링 지식을 추가 검색 지식과 중첩하여 더 나은 랭커를 구축할 수 있는지, 검색 지식을 도메인 적응 방식으로 학습하여 콜드 스타트 문제를 완화할 수 있는지 조사합니다.
  • 우리는 0.1M 쿼리가 포함된 Bing 검색 로그 샘플에서 BERT를 교육하고 ClueWeb09-B에서 미세 조정합니다.
  • 결과는 표 4에 나와 있습니다.
  • BERT-FirstP는 ClueWeb09-B에서 최고의 도메인 내 BERT 모델입니다(표 2).
  • 미리 학습된 언어 모델은 ('Honda', 'car')와 같은 일반적인 단어 연결을 인코딩하지만 ('Honda', '특별 제안')과 같은 검색 관련 지식이 부족합니다.
  • Conv-KNRM+Bing은 이전의 최첨단 도메인 적응 신경 IR 모델이었습니다[1].
  • 수백만 개의 쿼리-문서 쌍에 대해 교육을 받았지만 일반 언어 패턴을 명시적으로 모델링하지는 않습니다.
  • BERT-FirstP+Bing은 최고의 성능을 달성하여 텍스트 검색이 텍스트 콘텐츠와 검색 작업을 모두 이해해야 함을 확인합니다.
  • BERT의 간단한 domain adaptation은 레이블이 지정된 데이터가 제한된 관련 검색 작업을 개선할 수 있는 두 가지 유형의 지식을 모두 갖춘 사전 훈련된 모델로 이어집니다.
    • 너무 실험이 나이브한듯?
    • 즉 모델의 출발점을 bert 초기상태가 아니라, bert+bing으로 fine-tuning으로부터 시작하면 성능이 좋아진다.
    • 즉 학습 데이터가 많아져서 그런거라 볼 수도 있고, 외부 지식/도메인을 결합하는 거라면 다른 모듈을 만들어서 결합해야 그럴싸한 거 같음.

6 CONCLUSION

  • Text understanding은 텍스트 검색을 위해 오래 요구된 feature이다.
  • contextual nerual language 모델들은 word context 이해와 language structures modeling을 위한 새로운 가능성을 열었다.
  • 이 논문은 최근 제안된 BERT의 효과를 ad-hoc document 검색 테스크들에서 연구한다.
  • BERT의 adapting 및 미세 조정은 두 가지 다른 검색 작업에서 높은 정확도를 달성하여 IR에 대한 BERT 언어 모델링의 효율성을 보여줍니다.
  • 상황에 맞는 모델은 자연어 쿼리를 크게 개선합니다.
  • corpus-trained language model은 간단한 도메인 적응을 통해 검색 지식으로 보완될 수 있으며, 이는 텍스트의 의미와 검색 관련성을 모두 모델링하는 강력한 랭커로 이어집니다.
  • bag-of-words retrieval models 은 자연어에서 핵심 정보를 효과적으로 추출할 수 없기 때문에 사람들은 키워드 쿼리를 사용하도록 교육을 받았습니다.
  • 우리는 시스템이 언어 구조를 모델링할 수 있을 때 자연어로 작성된 쿼리가 실제로 더 나은 검색 결과를 가능하게 한다는 것을 발견했습니다.
  • 우리의 연구 결과는 natural language 인터페이스를 사용하는 검색 시스템에 대한 추가 연구를 장려합니다.

Reference

댓글