◼ Comment

BERT을 검색에서 활용하는 거에 대해 연구한 논문이다.

사실 지금보면 컨트리뷰션이 크게 없다.
그냥 BERT을 검색 테스크에 fine-tuning시킨 것

또한 cross-encoder형태로 입력을 concat하여서 넣기 때문에 대규모 검색 시스템에선 사용할 수 없다.

왜 bi-encoder 식으로 안했지?

아무튼, Bert을 쓰면 기존의 모델모다 좋다는 것이다.

query가 title과 description일때 나눠서 실험했는데, description인 경우에 효과적으로 향상한다.
아마 title은 짧은 키워드들로 이뤄졌기 때문에 기존의 모델들도 어느정도 작동하는데 description식 검색은 기존의 모델이 잘 처리하기 어려웠을 것이다.

예시를 들어서, BERT가 이전 모델의 모듈 (ngram, 동의어)들이 작동하는 방식을 흉내내는 것처럼 말하는데 너무 체리픽인거 같다.
5.2에서는 narrative query에 대해서도 조사한다.

narrative query는 기존 질의에서 구둣점, 불용어 (접미사, 별의미없는것들) 등을 제거하여 만들었다고 한다.
근데 BERT는 제거하니까 오히려 성능이 떨어졌다.
즉 불용어와 구두점은 정보 요구를 정의하지 않지만 언어의 구조를 구축하기 때문이다.
BERT는 이러한 구조를 캡처할 수 있으므로 flat bag-of-words보다 더 깊은 쿼리 이해를 달성할 수 있다.

또한, 학습할 때, 먼저 bing log로 학습하고 진행하면 성능이 올라간다.

단순히 더 많은 데이터를 썼다고 생각할 수도 있고
간단한 domain adaptation이라 생각할 수도 있는거 같다.

0 Abstract

neural 네트워크들은 query-document relations과 복잡한 언어 패턴들을 자동으로 학습하는데 새로운 가능성을 제공한다.
Neural IR 모델들은 query-document relevance 패턴들을 학습하는데 신뢰할만한 결과를 달성했지만, query 또는 documnet의 text content을 이해하는 탐구들은 거의 수행되지 않았다.
이 논문에서는 최근 제안된 contextual neural language model, BERT을 레버리지에서 IR을 위한 깊은 text understanding을 제공한다.
실험결과들은 BERT로부터 contextual text representations가 traditional word embedding보다 더욱 효과적임을 입증한다.
bag-of-words retrieval models과 비교하여, contextual language model은 language structures을 더욱 잘 레버리징하여서, 자연어로 쓰여진 query들에 대해 큰 성능향상을 가져온다.
텍스트 이해 능력과 search knowledge을 결합하면 훈련 데이터가 제한된 관련 검색 작업에 도움이 될 수 있는 사전 훈련된 BERT 모델이 향상됩니다.

1 INTRODUCTION

Text retrieval은 document meanings와 search task을 이해하는 것을 요구한다.
neural networks은 그들이 raw document text와 training data로부터 이해하기 때문에 매력적인 솔루션이다.
대부분의 neurla IR 방법들은 query-document 관계 패턴들을 학습하는데 집중하고, 즉 이 패턴은 search task에 대한 knowledge이다.
그러나, 관계 패턴들을 학습하는 것은 많은 양의 학습 데이터를 요구하지만 아직 tail queries 혹은 new search domains에 대해 잘 일반화되지 않는다.

이러한 이슈들은 사전 훈련된 일반목적인 텍스트 이해 모델을 바람직하게 만듭니다.

word2vec과 같은 pre-trained word representations은 neural IR에서 널리 사용되어왔다.

그들은 큰 corpus에서 word 동시발생 (co-occurrence)을 학습하고, 동의어와 관련된 단어들에대해 힌트들을 제공한다.
그러나, word co-occurrence은 단지 텍스트의 shallow bag-of-words 이해이다.

최근에는, 우리는 ELMo, BERT와 같은 pre-trained neural LM들의 소개와함께 텍스트 이해에 빠른 진행을 봐왔다.
전통적인 word embeddings와 달리, 그들은 contextual하다.

단어의 representation은 word dependencies와 sentence structures을 고려한 전체 입력 텍스트의 function이다.
모델들은 많은 수의 documents로 pre-trained되어서 contextual representations이 일반적인 언어 패턴들을 인코딩할 수 있게한다.
contextual neural language models은 다양한 NLP tasks의 전통적인 word embeddings보다 뛰어나다.
conetxtual neural language models의 deeper text understanding은 IR에 새로운 가능성을 가져온다.

이 논문은 ad-hoc documnet retrieval을 위해 BERT을 레버리지하는 것을 탐구한다.
BERT는 neural LM의 SoTA이다.

이는 검색 테스크 또한 잘 맞는다.
BERT is trained to predict the relationship between two pieces of text (typically sentences); and its attention-based architecture models the local interactions of words in text with words in text.

이는 interaction-based neural ranking model로 간주될 있고, 그래서 최소한의 검색 아키텍트 엔지니어링만이 요구된다.
이 논문은 ad-hoc document retrieval에서 BERT의 language understanding의 효과를 탐구한다.

서로 다른 특성을 가진 두 개의 adhoc retrieval 데이터 세트에서 BERT 모델을 검사합니다.

실험은 제한된 양의 검색 데이터로 사전 훈련된 BERT 모델을 미세 조정하면 강력한 기준선보다 더 나은 성능을 달성할 수 있음을 보여줍니다.

기존 검색 모델의 관찰과 달리 긴 자연어 쿼리는 BERT를 사용하여 짧은 키워드 쿼리보다 큰 차이로 성능이 향상될 수 있습니다.
기존 검색에서는 짧은 키워드 쿼리들이 자연어 쿼리보다 성능이 좋았다?
추가 분석에 따르면 기존의 IR 접근 방식에서 종종 무시되는 불용어와 구두점은 문법 구조와 단어 종속성을 정의하여 자연어 쿼리를 이해하는 데 중요한 역할을 합니다.
마지막으로 대규모 검색 로그의 검색 지식으로 BERT를 향상하면 텍스트 이해와 검색 작업 모두에 대한 지식을 갖춘 사전 훈련된 모델이 생성되어 레이블이 지정된 데이터가 제한된 관련 검색 작업에 도움이 됩니다.

2 RELATED WORK

최근 신경 IR 모델은 쿼리-문서 관련성 패턴 학습에서 유망한 진전을 이루었습니다.
한 연구 라인은 click logs[1, 9] 또는 pseudo-relevance feedback[2]의 검색 신호를 사용하여 검색 작업[1, 2, 9]에 맞게 조정된 텍스트 프레젠테이션을 학습합니다.
또 다른 연구 라인은 exact match signals [4] and passage-level signals [7]와 같은 다양한 matching features을 캡처하기 위해 신경 구조를 설계합니다.
쿼리/문서의 텍스트 콘텐츠를 이해하는 방법은 덜 탐색됩니다.
대부분의 신경 IR 모델은 Word2Vec [5]와 같은 단어 임베딩이 있는 텍스트를 나타냅니다.
컨텍스트를 통합하여 전통적인 단어 임베딩을 개선하기 위해 컨텍스트 신경 언어 모델이 제안됩니다[3, 8].
가장 성능이 좋은 신경 언어 모델 중 하나는 BERT입니다[3].
BERT는 언어의 일반적인 패턴을 학습하기 위해 대규모 개방형 도메인 문서에 대해 사전 교육을 받았습니다.
사전 훈련 작업에는 문장 내 단어 예측과 두 문장의 관계가 포함됩니다.
BERT는 통과 순위 작업을 포함하여 다양한 NLP 작업에 대한 최신 기술을 발전시켰습니다[6].
표준 문서 검색 작업에 대한 효율성은 아직 연구 중입니다.

3 DOCUMENT SEARCH WITH BERT

This work uses an off-the-shelf BERT architecture, the sentence pair classification architecture described by Devlin [3], as shown in Figure 1.
이 모델은 두 세그먼트를 구분하는 특수 토큰 '[SEP]'을 사용하여 쿼리 토큰과 문서 토큰의 연결을 입력으로 사용합니다.
토큰은 임베딩에 포함됩니다.
document에서 쿼리를 추가로 분리하기 위해 segment embeddings 'Q'(쿼리 토큰용) 및 'D'(문서 토큰용)가 토큰 임베딩에 추가됩니다.
word order를 캡처하기 위해 position embeddings 이 추가됩니다.
토큰은 여러 layers의 transformers를 거칩니다.

각 레이어에서 다른 모든 토큰의 임베딩을 가중 합산하여 각 토큰에 대해 새로운 상황별 임베딩이 생성됩니다.
가중치는 여러 어텐션 매트릭스(멀티 헤드 어텐션)에 의해 결정됩니다.
attentions이 강한 단어는 대상 단어와 더 관련이 있는 것으로 간주됩니다.
다양한 어텐션 매트릭스는 정확한 일치 및 동의어와 같은 다양한 유형의 단어 관계를 캡처합니다.
쿼리와 문서의 상호 작용이 고려되도록 쿼리와 문서에 주의를 기울입니다.

마지막으로 첫 번째 토큰의 출력 포함은 전체 쿼리-문서 쌍에 대한 표현으로 사용됩니다.
다층 퍼셉트론(MLP)에 입력되어 관련 가능성(이진 분류)을 예측합니다.
모델은 사전 훈련된 언어 모델을 활용하기 위해 사전 훈련된 BERT 모델로 초기화되며, 마지막 MLP 계층은 처음부터 학습됩니다.
교육 중에 전체 모델은 더 많은 IR 관련 representations을 학습하도록 조정됩니다.
Passage-Level Evidence.

BERT을 긴 문서들에게 적용하는 것은 매번 tokens 쌍을 상호작용하는 복잡성 떄문에 메모리 사용과 run time을 증가시키긴다.
sentence 훈련 모델은 긴 텍스트에 덜 효과적일 수 있다.
우리는 document 검색을 위해 간단한 passage-level 접근법을 채택한다.
우리는 document을 ovelapping passages로 나눈다.
neural ranker은 각 passage의 연관성을 독립적으로 예측한다.
document score은 첫번째 passage의 score (BERT-FirstP), 가장 좋은 passage (BERT-MaxP) 혹은 모든 passage scores의 합 (BERT-SumP)이다.
즉 인퍼런스할때, document을 여러 passage로 overlappiong하게 쪼개고, 쪼개진 passage와 query와의 점수를 계산한다.
각 passage 점수를 합을 낼지, 가장 높은 것을 사용할지, 첫번째 passage 것을 사용할지는 사용자 선택느낌
학습에서는, passage-level labels은 이 연구에서 사용되지 않는다.
우리는 관련 document의 모든 passages을 관련성이 있는 것으로 간주하고 그 반대의 경우도 마찬가지입니다.
즉 쪼개진 passage는 다 같은 레이블을 가진다.
문서 제목을 사용할 수 있는 경우 컨텍스트를 제공하기 위해 모든 구절의 시작 부분에 제목이 추가됩니다.

Augmenting BERT with Search Knowledge.

몇 검색 테스크들은 general text understanding (즉, Honda는 자동차 회사이다.)와 좀 더 구체적인 검색 지식 (즉. 사람들은 Honda에 대한 특별한 제공을 보고 싶어한다.) 둘 다를 요구한다.
pre-trained BERT는 general language patterns을 인코딩하는대신, 검색 지식은 labeled search data로부터 학습되어야한다.
이러한 데이터는 종종 획득하기 비싸고 수집하는데 시간이 걸린다.
language understanding knowledge and search knowledge을 모두 갖춘 pre-trained ranking model을 가지는 것이 바람직하다.
우리는 search knowledge을 가진 BERT을 매우 큰 search log에 대해 튜닝해서 보강한다.
풍부한 검색 지식은 수십 또는 수백 개의 레이블이 지정된 검색 예제만 사용할 수 있는 관련 검색 작업에 도움이 될 것으로 예상됩니다.

Discussion.

검색 작업에 BERT를 적용하기 위해 약간의 조정만 이루어집니다.
긴 문서를 처리하기 위한 passage-based 접근 방식과 multiple document fields를 처리하기 위한 concatenation 방식입니다.
우리의 목표는 아키텍처를 크게 확장하는 것이 아니라 검색을 위한 BERT의 상황화된 언어 모델의 가치를 연구하는 것입니다.

4 EXPERIMENTAL SETUP

Datasets.

서로 다른 특성을 가진 두 가지 표준 텍스트 검색 컬렉션을 사용합니다.
Robust04는 50만 개의 문서와 249개의 쿼리가 있는 뉴스 코퍼스입니다.
짧은 키워드 쿼리(title)와 긴 자연어 쿼리(description)의 두 가지 버전의 쿼리가 포함됩니다.
관련성 평가를 위한 지침으로 narrative도 포함됩니다.
예는 표 1에 나와 있습니다.
ClueWeb09-B에는 5천만 개의 웹 페이지와 제목 및 설명이 포함된 200개의 쿼리가 포함되어 있습니다.
구절은 75단어의 보폭이 있는 150단어 슬라이딩 윈도우를 사용하여 생성됩니다.
ClueWeb09-B의 경우 각 구절의 시작 부분에 문서 제목이 추가됩니다.
검색 데이터로 BERT를 보강하기 위해 Dai [1]의 도메인 적응 설정을 따르고 동일한 Bing 검색 로그 샘플을 사용합니다.
샘플에는 0.1M 쿼리와 5M 쿼리-문서 쌍이 포함되어 있습니다.

Baselines and Implementations.

Unsupervised baselines은 Indri의 BOW(Bag of Words) 및 SDM(순차 종속성 모델 쿼리)을 사용합니다.
Learning-to-rank baselines에는 RankSVM 및 단어 모음 기능이 있는 Coor-Ascent가 포함됩니다[1].
Neural baselines에는 DRMM[4] 및 Conv-KNRM이 포함됩니다.
DRMM은 word2vec[5]를 사용하여 단어 소프트 일치를 모델링합니다.

두 데이터 세트에서 가장 성능이 좋은 신경 모델 중 하나인 것으로 나타났습니다[4].

Conv-KNRM은 검색 작업을 위한 n-gram 임베딩을 학습하고 대용량 검색 로그에 대해 학습할 때 강력한 성능을 보여줍니다[1].
Bing에 적응된 Conv-KNRM은 domain adaptation[1]으로 훈련되었을 때 상태 신경 IR 모델이었으며 Bing에 의해 증강된 BERT와 비교됩니다.
BERT 모델은 Google에서 출시한 구현을 기반으로 합니다.
기준선은 표준 불용어 제거 및 형태소 분석을 사용합니다.
BERT는 raw 텍스트를 사용합니다.
Supervised 모델은 5-fold cross-validation을 통해 BOW에서 검색한 상위 100개 문서의 순위를 재지정하는 데 사용됩니다.
공간 제한으로 인해 nDCG@20만 보고합니다.

유사한 경향이 nDCG@10 및 MAP@100에서 관찰되었습니다.

소스 코드 및 관련 리소스가 공개됩니다.

5 RESULTS AND DISCUSSION

이 섹션에서는

document retrieval tasks에 대한 BERT의 효과,
여러 유형의 쿼리 간의 차이점,
검색 로그로 BERT를 향상시키는 효과를 연구합니다.

5.1 Pre-trained BERT for Document Retrieval

각 순위 방법의 순위 정확도는 표 2에 나와 있습니다.

Robust04에서 BERT 모델은 query titles에서 10% 마진과 description queries에서 20% 마진으로 기준선보다 지속적으로 더 나은 검색 정확도를 달성합니다.
ClueWeb09-B에서 BERT는 title queries에서 Coor-Acent와 비슷하며 description queries에서 더 좋습니다.

결과는 document retrieval, 특히 description queries에서 BERT의 효율성을 보여줍니다.
neural rankers 중에서 Conv-KNRM의 정확도가 가장 낮습니다.
Conv-KNRM은 처음부터 n-gram 임베딩을 학습해야 합니다.

large search log[1]에서 학습할 때는 강력하지만 적은 양의 데이터로만 학습할 때는 과적합되는 경향이 있습니다.
BERT는 사전 학습되었으며 과적합될 가능성이 적습니다.

DRMM은 pretrained word embeddings이 있는 단어를 나타냅니다.

BERT 모델의 더 나은 성능은 맥락화된 텍스트 표현이 단어 모음 임베딩보다 IR에 더 효과적이라는 것을 보여줍니다.

Sources of effectiveness.

그림 2는 description query와 sentence간의 관계를 예측할 때, BERT-MaxP 모델의 2개의 layer을 보여준다.

description query ‘Where are wind power installations located?’
sentence ‘There were 1,200 wind power installations in Germany’.

Example 1은 document word 'power'에 의해 받은 attention을 보여준다.

가장 강한 attention은 쿼리의 'power'(query-document exact term matching)와 'power'의 previous 및 next 단어(bi-gram modeling)에서 나옵니다.
근데 이거는 너무 체리픽 아닌가? 항상 그런건 아닐건데 당연
words와 n-gram의 local matching은 강력한 neural IR features인 것으로 입증되었습니다[1, 4]. BERT도 캡처할 수 있습니다.

Example 2은 query word 'where'로부터 가장 강력한 attention을 받는 것은 document word 'in'이다.

word 'in'은 'in Germany'의 컨텍스트로부터 나타나고, 이것은 'where' question을 만족시킨다.
'in'와 'where'와 같은 단어들은 corpus에서 그들의 높은 document frequency 때문에 종종 전통적인 IR 방법들에 의해 무시된다.
이 예제는 deeper text understanding을 보여주고, 이러한 stop words (불용어)은 실제로 relevance에 관한 중요한 evidence을 제공한다.

요약하면, BERT의 장점들은 데이터와 구조에 있다.
transformer 구조는 BERT가 다양한 효과적인 matching features을 추출한다.
transformers들은 이미 large corpus에서 pre-trained 되었고, few training data을 가진 search tasks 또한 deep network로부터 이점을 가진다.

Title queries vs. description queries.

BERT 모델은 description queries에서 더 큰 이득을 얻습니다.
Robust04에서, description queries을 사용한 BERT-MaxP는 best title query baseline (SDM)보다 23% 성능향상을 가져온다.

대부분 다른 ranking methods은 titles와 비교하여 descriptions에서 유사하거나 나쁜 성능을 갖는다.
우리가 아는한, 우리가 description queries가 title queires보다 큰 마진으로 높은 성능을 달성하는 것은 처음이다.

ClueWeb09-B에서 BERT는 titles과 descriptions 사이의 간격을 줄입니다.

직관적으로 description 쿼리는 더 풍부한 정보를 전달해야 하지만 term importance를 추정하기 어렵기 때문에 기존의 bag-of-words 방법에서는 이를 완전히 활용하기 어렵습니다.

우리의 결과는 더 긴 자연어 쿼리가 실제로 키워드보다 더 표현력이 뛰어나고 더 풍부한 정보를 효과적으로 활용하여 심층적이고 상황에 맞는 신경 언어 모델을 사용하여 검색을 개선할 수 있음을 보여줍니다.
다양한 유형의 검색 쿼리를 이해하는 BERT의 능력에 대한 추가 분석은 섹션 5.2에서 제공됩니다.

Robust04 vs. ClueWeb09-B.

BERT 모델은 ClueWeb09-B보다 Robust04에서 더 잘 수행됩니다.
이것은 아마도 Robust04가 사전 훈련된 모델에 더 가깝기 때문일 것입니다.
Robust04에는 잘 작성된 기사가 있습니다.

쿼리는 텍스트 의미 이해에 크게 의존하는 사실을 찾습니다.

ClueWeb09-B 문서는 표, 탐색 모음 및 기타 불연속 텍스트를 포함하는 웹 페이지입니다.
이 작업에는 페이지 권한과 같은 웹 검색 관련 문제도 포함됩니다.
이러한 검색 관련 지식을 학습하려면 더 많은 학습 데이터가 필요할 수 있습니다.
섹션 5.3에서 이 가능성을 조사합니다.

5.2 Understanding Natural Language Queries

이 섹션에서는 서로 다른 수준의 텍스트 이해가 필요한 세 가지 유형의 쿼리(title, description, and narrative)에 대한 BERT를 살펴봅니다.
문법 구조의 효과를 테스트하기 위해 removing stopwords and punctuation을 제거하여 description and narrative의 키워드 버전을 생성합니다.
BERT가 내러티브의 논리를 이해하는 방법을 테스트하기 위해 negative conditions을 제거하여 내러티브의 'positive' 버전을 생성합니다 (예: "Not relevant are documents...").
표 3은 Robust04에서 SDM, Coor-Acent 및 BERT-MaxP의 성능을 보여줍니다.
지도 방식은 내러티브에 대한 BOW의 낮은 리콜로 인해 내러티브를 사용하여 제목 쿼리 초기 결과의 순위를 다시 지정합니다.
내러티브는 다른 유형의 쿼리보다 이점을 제공합니다.
SDM은 타이틀에서 가장 잘 작동합니다.
Coor-Acent는 설명과 내러티브가 적당히 더 좋습니다.
두 가지 방법은 용어 빈도만을 기준으로 단어에 가중치를 부여하지만 단어 중요도는 전체 쿼리의 의미에 따라 달라집니다.
대조적으로 BERT-MaxP는 단어 의미와 컨텍스트를 모델링하여 긴 쿼리를 크게 개선합니다.
키워드 버전은 SDM 및 Coor-Acent에 대한 원래 쿼리보다 성능이 더 좋습니다.
불용어는 TF와 같은 기존 일치 신호에 노이즈가 많기 때문입니다.
반대로 BERT는 원래의 자연어 쿼리에 더 효과적입니다.

불용어와 구두점은 정보 요구를 정의하지 않지만 언어의 구조를 구축합니다.
BERT는 이러한 구조를 캡처할 수 있으므로 flat bag-of-words보다 더 깊은 쿼리 이해를 달성할 수 있습니다.

표 3은 BERT의 한계도 보여줍니다.
내러티브에서 negative logic conditions의 증거를 활용할 수 없습니다.

negative conditions을 제거해도 성능이 저하되지 않습니다.

5.3 Understanding the Search Task

말뭉치 훈련 텍스트 표현이 항상 검색 작업과 일치하지는 않습니다[9].
검색 관련 지식이 필요하지만 교육을 위해서는 레이블이 지정된 데이터가 필요합니다.
Dai[1]는 리소스가 적은 검색 작업을 위해 관련 도메인에서 검색 패턴을 학습하는 유망한 결과를 보여줍니다.
마지막 섹션에서는 BERT의 언어 모델링 지식을 추가 검색 지식과 중첩하여 더 나은 랭커를 구축할 수 있는지, 검색 지식을 도메인 적응 방식으로 학습하여 콜드 스타트 문제를 완화할 수 있는지 조사합니다.
우리는 0.1M 쿼리가 포함된 Bing 검색 로그 샘플에서 BERT를 교육하고 ClueWeb09-B에서 미세 조정합니다.
결과는 표 4에 나와 있습니다.
BERT-FirstP는 ClueWeb09-B에서 최고의 도메인 내 BERT 모델입니다(표 2).
미리 학습된 언어 모델은 ('Honda', 'car')와 같은 일반적인 단어 연결을 인코딩하지만 ('Honda', '특별 제안')과 같은 검색 관련 지식이 부족합니다.
Conv-KNRM+Bing은 이전의 최첨단 도메인 적응 신경 IR 모델이었습니다[1].
수백만 개의 쿼리-문서 쌍에 대해 교육을 받았지만 일반 언어 패턴을 명시적으로 모델링하지는 않습니다.
BERT-FirstP+Bing은 최고의 성능을 달성하여 텍스트 검색이 텍스트 콘텐츠와 검색 작업을 모두 이해해야 함을 확인합니다.
BERT의 간단한 domain adaptation은 레이블이 지정된 데이터가 제한된 관련 검색 작업을 개선할 수 있는 두 가지 유형의 지식을 모두 갖춘 사전 훈련된 모델로 이어집니다.

너무 실험이 나이브한듯?
즉 모델의 출발점을 bert 초기상태가 아니라, bert+bing으로 fine-tuning으로부터 시작하면 성능이 좋아진다.
즉 학습 데이터가 많아져서 그런거라 볼 수도 있고, 외부 지식/도메인을 결합하는 거라면 다른 모듈을 만들어서 결합해야 그럴싸한 거 같음.

6 CONCLUSION

Text understanding은 텍스트 검색을 위해 오래 요구된 feature이다.
contextual nerual language 모델들은 word context 이해와 language structures modeling을 위한 새로운 가능성을 열었다.
이 논문은 최근 제안된 BERT의 효과를 ad-hoc document 검색 테스크들에서 연구한다.
BERT의 adapting 및 미세 조정은 두 가지 다른 검색 작업에서 높은 정확도를 달성하여 IR에 대한 BERT 언어 모델링의 효율성을 보여줍니다.
상황에 맞는 모델은 자연어 쿼리를 크게 개선합니다.
corpus-trained language model은 간단한 도메인 적응을 통해 검색 지식으로 보완될 수 있으며, 이는 텍스트의 의미와 검색 관련성을 모두 모델링하는 강력한 랭커로 이어집니다.
bag-of-words retrieval models 은 자연어에서 핵심 정보를 효과적으로 추출할 수 없기 때문에 사람들은 키워드 쿼리를 사용하도록 교육을 받았습니다.
우리는 시스템이 언어 구조를 모델링할 수 있을 때 자연어로 작성된 쿼리가 실제로 더 나은 검색 결과를 가능하게 한다는 것을 발견했습니다.
우리의 연구 결과는 natural language 인터페이스를 사용하는 검색 시스템에 대한 추가 연구를 장려합니다.

Reference

https://arxiv.org/pdf/1905.09217.pdf

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-172, Deeper Text Understanding for IR with Contextual Neural Language Modeling, SIGIR 2019

◼ Comment

0 Abstract

1 INTRODUCTION

2 RELATED WORK

3 DOCUMENT SEARCH WITH BERT

4 EXPERIMENTAL SETUP

5 RESULTS AND DISCUSSION

5.1 Pre-trained BERT for Document Retrieval

5.2 Understanding Natural Language Queries

5.3 Understanding the Search Task

6 CONCLUSION

댓글

댓글 쓰기