NL-218, IntenT5: Search Result Diversification using Causal Language Models, Preprint 2021
◼ Comment
- facet generation과 이를 이용한 search result diversification을 하는 연구이다.
- 큰 노벨티는 없어보이지만, 전체적인 흐름잡기에 좋은 논문이었다
- 질의에 대해 일단 하위 의도들이 있을 것이다
- 논문에서 자주 예를 드는 쿼리가 "펭귄"이다.
- 펭귄을 검색하면 동물에 대한 결과가 대부분이지만, 하키팀에 대한 정보도 나오길 원한다고 한다.
- 따라서 펭귄에 대한 의도/facet들을 생성한다
- 이 모델을 intenT5라고 명명한다.
- intenT5은 DCLM 방식으로 학습한다고 한다
- 사실 뭐 별거는 아니고, penguins animals facts란 입력 데이터에서 penguins animal에 대해서도 학습을 따로 한다는 의미이다.
- 이렇게 학습된 모델을 다양하게 인퍼런스해서(빔서치) 여러 intent을 추출한다
- 추출된 여러 의도를 통해서 검색된 문서를 scoring한다
- 즉 펭귄을 검색해서 나온 문서들을 재랭킹하는 것
- 재랭킹하고 aggregation하는 것은 기존모델을 사용했음
- 정확히 어떻게 학습된 기존모델들인지는 모르겠으나, 이런 기존 모델들에 intent5을 붙였을때 얼마나 검색결과가 다양해지는지 확인하는 실험들을 했음
- 개인적으로 느끼기엔
- 생성된 의도들로도 검색을 해서 여러 검색문서들을 aggregation하는 것이 뭔가 더 다양화가 될거 같았다
- 하지만 여기서는 검색은 기존 질의에 대해서만 하고 이 문서들을 재랭킹하는것이 중점이다.
- 추측으로는 그냥 임베딩해서 유사도를 구해서 재랭킹하는게 아닐까 싶긴한데.. monoT5, sQuAD, PM2 등의 모델을 한번 확인해볼 필요는 있겠다
- 실험 결과가 막 엄청 좋아지는 느낌은 아닌거 같은데 어쨌든 이러한 접근법이 현재 해결할 업무와 상당히 유사함을 느꼈다
0 Abstract
- Search result diversification는 모호하거나 다면적인 불충분하게 명시된 쿼리를 극복하는 데 유용한 접근 방식입니다.
- 기존 접근 방식은 종종 방대한 쿼리 로그와 상호작용 데이터를 이용해 다양한 가능한 쿼리 의도를 생성한 다음 이를 문서 재랭킹에 사용합니다.
- 그러나 사용자 상호작용 데이터에 의존하는 것은 대규모 사용자 기반이 필요하다는 문제점이 있으며, 공개 쿼리 로그만으로는 충분하지 않습니다.
- 최근 텍스트 생성 작업에서 텍스트-텍스트 변환기(T5) 모델과 같은 인과 언어 모델의 성공을 바탕으로, 이러한 모델이 잠재적인 쿼리 의도를 생성할 수 있는 능력을 탐구합니다.
- 우리는 생성된 쿼리의 다양성을 장려하기 위해 모델을 적응시켜 미세 조정 중에 새로운 분포 인과 언어 모델링(DCLM) 목표를 포함하고 추론 중에 표현 교체를 사용하는 것이 유익하다는 것을 발견했습니다.
- 여섯 가지 표준 평가 벤치마크에서 우리의 방법(IntenT5)이 검색 결과 다양성을 개선하고, 때로는 독점 쿼리 로그를 기반으로 한 쿼리 제안으로 얻은 다양성을 초과한다는 것을 확인했습니다.
- 우리의 분석에 따르면 이 접근 방식은 다면적인 쿼리에(multi-faceted) 가장 효과적이며 훈련 데이터에서 보지 못한 쿼리에도 효과적으로 일반화할 수 있습니다.
1 INTRODUCTION
- 문맥화된 언어 모델(BERT [19] 및 T5 [42]와 같은)은 비정형 랭킹에서 매우 효과적임이 입증되었으나, 자연어 질문과 같은 충분한 문맥을 제공하는 쿼리에서 가장 잘 작동합니다 [16].
- 대화형 검색 시스템 [41]과 같은 더 표현력 있는 쿼리 기술이 증가함에도 불구하고, 키워드 기반 쿼리는 여전히 사용자들 사이에서 인기 있는 선택입니다.
- 하지만 키워드 쿼리는 종종 명확하지 않아 여러 가지 가능한 해석이나 의도를 초래할 수 있습니다 [8].
- 이전의 어휘 모델과 달리, 단어의 의미나 문맥에서의 사용을 고려하지 않는 문맥화된 언어 모델은 단일 주요 의미에 기반하여 점수를 매기기 쉽기 때문에 명확하지 않은 쿼리의 검색 결과 품질이 떨어질 수 있습니다.
- 예를 들어, 그림 1(a)의 결과는 모두 유사하며 다양한 정보 요구를 충족하지 못합니다.
- monoT5 모델은 re-ranking 모델인듯?
- (a) monoT5 (다양성 없음) 예시는 모두 동물로서의 펭귄에 대한 설명입니다. 각 결과는 거의 동일한 정보를 반복하며, 사용자가 다른 의미나 의도(예: 하키 팀)를 찾고 있는 경우 불만족스러울 수 있습니다.
- (b) monoT5 (IntenT5 + DCLM + RS + xQuAD 사용) 예시는 다양한 정보를 포함하고 있습니다. 첫 번째와 세 번째 결과는 여전히 동물로서의 펭귄에 대한 것이지만, 두 번째, 네 번째, 다섯 번째 결과는 피츠버그 펭귄 하키 팀에 대한 정보를 제공합니다. 이는 사용자가 다양한 의도를 가지고 있을 때 더 나은 사용자 경험을 제공합니다.
- 명확하지 않은 쿼리는 모호하거나 다면적일 수 있습니다 [12].
- 모호한 쿼리의 경우, 의도는 서로 다르고 종종 다른 단어 의미에 해당합니다.
- 예를 들어, "penguins"라는 쿼리는 동물 또는 미국 아이스하키 팀을 의미할 수 있습니다.
- 그림 1에서, monoT5 모델 [37]은 상위 결과에서 전자의 의미만 식별합니다.
- 사실, 하키 팀에 대한 문서의 첫 번째 발생은 158위에 랭크되어 있어, 이 쿼리 의도를 가진 사용자는 자신의 정보 요구를 충족하기 위해 쿼리를 재구성해야 할 가능성이 큽니다.
- 다면적 쿼리의 경우, 사용자는 주제에 대한 다양한 측면에 관심이 있을 수 있습니다.
- 예를 들어, "penguins"의 경우, 사용자는 동물의 외모, 서식지, 생애 주기 등에 대한 정보 또는 하키 팀의 일정, 명단, 점수 등에 대한 정보를 찾고 있을 수 있습니다.
- 여기서도 마찬가지로, monoT5 결과는 서식지와 외모에 집중된 상위 결과들로 다양한 측면이 부족합니다.
- 검색 결과 다양화 접근 방식은 이러한 문제를 해결하려고 합니다.
- 이 설정에서, 다양한 가능한 쿼리 의도가 예측되고 각 의도에 대한 관련성 점수가 결합되어 상위 결과들 사이에 다양성을 제공합니다(예: IASelect [1], xQuAD [43] 또는 PM2 [18]와 같은 알고리즘 사용).
- 의도는 수동으로 구성된 계층 구조 [1]나 인기 있는 검색 또는 재구성을 포함한 상호작용 데이터 [43]에서 추론할 수 있습니다.
- 대규모 사용자 기반을 가진 대형 검색 엔진에서는 상호작용 데이터를 사용하는 것이 가능하지만, 대규모 사용자 기반이 없는 검색 엔진이나 학계 연구자에게는 적합하지 않습니다.
- 대신 연구자들은 주요 검색 엔진의 검색 결과 제안(블랙박스 알고리즘 사용)이나 다양성 평가를 위한 "골드" 의도를 주로 사용해왔습니다 [18].
- 따라서 대규모 상호작용 데이터 없이도 잠재적인 쿼리 의도를 생성할 수 있는 효과적인 접근 방식이 필요합니다.
- 최근 다양한 텍스트 생성 작업에서 T5 [42]와 같은 Causal Language Models(CLMs)의 성공을 감안하여, 우리는 이러한 모델을 사용하여 명확하지 않은 쿼리의 잠재적인 의도를 생성할 것을 제안합니다.
- 그림 2는 우리의 접근 방식(IntenT5)의 개요를 제공합니다.
- 우리가 하려는 것하고 비슷한 컨셉이고 방식 및 동기도 거의 같은듯
- 우리는 모델을 중간 크기의 쿼리 컬렉션(ORCAS [15])에서 미세 조정하고 6개의 TREC 다양성 벤치마크 데이터셋을 사용하여 평가합니다.
- 우리의 접근 방식은 어휘 및 신경 재랭킹 모델의 검색 결과 다양성을 향상시키며, Google query suggestions과 TREC 의도 설명을 사용할 때보다 더 나은 성능을 보여줍니다.
- 특히, 훈련 쿼리 컬렉션에서 자주 발생하지 않거나 전혀 발생하지 않은 쿼리에서 큰 개선을 보여줍니다.
- 우리의 IntenT5 모델을 분석한 결과, 모호한 쿼리에 대해 단순한 비정형 랭킹 모델보다 개선하기 어려움을 겪는다는 것을 알게 되었습니다.
- 실제로 다른 접근 방식에서도 이 점이 도전적이라는 것을 발견했습니다.
- 모호성을 더 잘 처리하기 위해, 우리는 생성된 의도의 다양성을 개선하기 위한 두 가지 새로운 기술을 탐구합니다.
- 첫째, Distributional Causal Language Modeling(DCLM) 목표를 제안합니다.
- 이 접근 방식은 일반적인 CLM이 이 작업을 위해 훈련될 때, 쿼리와 관련이 없는 일반적인 용어(예: '정보', '의미', '역사')를 과대 예측하는 경향이 있다는 관찰을 목표로 합니다.
- 이 접근 방식은 접두어 뒤에 올 수 있는 모든 후속 토큰을 생성하도록 모델을 동시에 최적화하여, 모델이 단어가 가질 수 있는 다양한 의미를 더 잘 학습할 수 있도록 합니다.
- 우리는 또한 내부 용어 표현을 다양한 가능한 대체 의미로 교체하는 클러스터링 기반 표현 교체(RS) 접근 방식을 도입합니다.
- 질적으로, 우리는 이러한 접근 방식이 고립된 사례에서 모호한 쿼리의 다양성을 개선하는 데 도움이 될 수 있다는 것을 발견했습니다.
- 예를 들어, 그림 1(b)에서, 여러 의미가 식별되고 고려되었습니다.
- 그러나 전체적으로 볼 때, 우리는 이러한 접근 방식이 수정되지 않은 IntenT5 모델을 개선한다는 충분한 증거를 발견하지 못했습니다.
- 그럼에도 불구하고, 우리의 연구는 이 분야에서 더 많은 연구의 문을 열고 모호한 쿼리가 포함된 더 큰 테스트 세트의 생성을 촉진합니다.
- 요약하자면, 우리의 기여는 다음과 같습니다:
- 검색 결과 다양화를 위한 쿼리 의도 예측에 인과 언어 모델을 사용하는 방법을 제안합니다.
- 6개의 TREC 다양성 벤치마크에서, 이 접근 방식이 대규모 상호작용 데이터를 기반으로 생성된 쿼리 의도보다 우수한 성능을 보여주며, 모델이 이전에 보지 못한 쿼리에도 효과적으로 일반화할 수 있음을 입증합니다.
- 모호한 쿼리를 더 잘 처리하기 위해 새로운 분포 인과 언어 모델링 목표와 표현 교체 전략을 도입합니다.
- IntenT5가 효과적인 상황을 분석하고 생성된 의도를 질적으로 평가합니다.
2 BACKGROUND AND RELATED WORK
- 이 섹션에서는 검색 결과 다변화(섹션 2.1), 인과 언어 모델링(섹션 2.2), 그리고 신경 순위 매김(섹션 2.3)과 관련된 배경과 이전 연구를 다룹니다.
2.1 Search Result Diversification
- 검색 결과 다변화 기법은 모호한 쿼리를 처리하는 것을 목표로 합니다. 초기 연구들은 검색된 문서들이 서로 다른 주제를 다루도록 하는 것을 목표로 했습니다. 예를 들어, Maximal Marginal Relevance (MMR) [4]은 사용자의 쿼리에 관련 있지만 이미 검색된 문서와는 다른 문서를 추천하는 데 사용될 수 있습니다. 이를 통해 확률 순위 원칙(Probability Ranking Principle)에 내재된 전통적인 문서 독립성 가정을 완화할 수 있습니다. 상위에 랭크된 문서들이 다양한 주제를 다루도록 함으로써, 다변화 접근법은 사용자의 정보 요구에 부합하는 관련 문서가 검색되지 않을 위험을 줄이는 것을 목표로 합니다 [48]. IA-Select와 같은 다른 접근법들은 카테고리 계층을 사용하여 다른 의도를 가진 문서를 식별했습니다 [1].
- 명확하게 정의되지 않은(모호하거나 다면적인) 쿼리 𝑞와 후보 문서 세트 𝑑가 주어졌을 때, 잠재적 쿼리 의도 {𝑖1, 𝑖2, ... 𝑖𝑗}는 하위 쿼리, 즉 쿼리의 특정 해석에 대해 관련 문서를 더 명확하게 식별하는 쿼리 형식으로 식별될 수 있습니다. 이러한 의도들은 일반적으로 쿼리 로그와 같은 상호작용 데이터에서 식별됩니다 [43]. 학술 연구에서는 주요 검색 엔진의 쿼리 제안이 종종 이 과정을 대체합니다 [18, 43]. 후보 문서들은 각 의도에 대해 다시 점수가 매겨집니다. 개별 의도에서 나온 점수들은 xQuAD나 PM2와 같은 알고리즘을 사용하여 최종 문서 순위 매김에 집계됩니다.
- 집계 전략은 일반적으로 관련성과 참신성의 균형을 맞추려고 합니다. xQuAD [43]은 원래 쿼리에 높은 관련성을 보이고 의도 집합에 최대한 관련된 문서를 반복적으로 선택합니다. 문서들이 선택될 때, 이미 표시된 의도에 대한 문서의 관련 점수는 한쪽으로 치우치게 됩니다. 원래 쿼리와 의도에 대한 관련성 간의 균형은 𝜆라는 매개변수로 제어됩니다. PM2 [18]는 비례 대표 투표 방식을 기반으로 하는 집계 전략입니다. 이 집계 전략은 원래 쿼리에 대한 관련성을 무시하고, 지금까지 가장 적게 대표된 의도를 반복적으로 선택합니다. 선택된 의도와 다음 문서를 선택할 때 선택되지 않은 의도의 영향은 매개변수 𝜆 (xQuAD의 𝜆와 혼동해서는 안 됨)로 제어됩니다.
- 최근에는 다변화를 위한 학습된 모델을 다루는 연구들이 많았습니다 [20, 49, 51]; 우리는 이것을 여기서 다루는 작업과는 별개의 것으로 보고 있습니다. 왜냐하면 우리는 학습된 다변화 접근법을 고려하지 않기 때문입니다. 사실, 이 연구에서는 집계 전략보다는 검색 결과 다변화를 위한 쿼리 의도 생성 과정을 연구합니다. 검색 결과 다변화에 대한 추가 정보는 [44]를 참조하십시오.
2.2 Causal Language Modeling
- 인과 언어 모델(CLMs)은 시퀀스 내의 이전 토큰들로 주어진 토큰 𝑤𝑘의 확률을 예측합니다: 𝑃(𝑤𝑘|𝑤𝑘−1, 𝑤𝑘−2, ..., 𝑤1). 이 속성 덕분에 CLM은 텍스트를 생성할 수 있습니다. 프롬프트를 제공하면 모델은 이후의 토큰 시퀀스를 반복적으로 예측할 수 있습니다. 그러나 이 공간의 완전한 검색은 지수적이 됩니다. 왜냐하면 각 토큰의 확률이 앞서 생성된 토큰들에 의존하기 때문입니다. 이 공간을 가지치기하는 다양한 전략이 존재합니다. 검색 공간을 줄이기 위한 인기 있는 접근 방식은 고확률 시퀀스를 병렬로 탐색하는 빔 검색(beam search)입니다. 다양한 빔 검색(Diverse Beam Search) [46]과 같은 대안적인 접근 방식도 제안되었지만, 우리는 이 기술들이 쿼리와 같은 짧은 텍스트에는 불필요하다고 판단했습니다. 빔 검색과 텍스트 생성 전략에 대한 더 자세한 내용은 Meister et al. [32]를 참조하십시오.
- 이전에는 CLM이 순환 신경망(recurrent neural networks) [24, 33]으로 모델링되었지만, 최근에는 트랜스포머 네트워크 [17]로 모델링되고 있습니다. 인과 언어 모델링 목표로 사전 훈련된 네트워크는, 예를 들어 T5 [42] 같은 모델, 특정 작업에 대한 추가 훈련의 효과적인 출발점이 될 수 있습니다 [42]. T5의 경우, 특정 작업들도 시퀀스 생성 문제로 간주하여 소스 텍스트를 인코딩하고 모델 예측을 생성합니다 (예: 분류 작업의 레이블).
- 본 연구에서는 다양한 쿼리 의도를 생성하기 위해 CLM(T5 특히)을 탐구합니다. 이는 CLM의 일반적인 사용과는 다릅니다. 왜냐하면 텍스트가 짧고(키워드 쿼리로서 자연어 문장이나 단락이 아님) 예측의 다양성에 중점을 두기 때문입니다.
2.3 Neural Ranking
- 신경 접근법은 특히 의도가 명확하고 자연어로 표현된 경우 ad hoc 순위 매기기 작업에서 효과적인 것으로 나타났습니다 [16]. 사전 학습된 문맥화 언어 모델인 BERT [19]와 ELECTRA [6]는 ad hoc 순위 매기기에서 특히 효과적이었습니다 [30, 36]. 이러한 모델의 간단한 응용은 "바닐라" 설정(또는 CLS, mono, cross라고도 함)입니다. 이 설정에서는 쿼리와 문서 텍스트가 공동으로 인코딩되고 모델의 분류 구성 요소가 순위 점수를 제공하도록 튜닝됩니다. 이러한 접근법은 비용이 많이 들기 때문에 신경 모델은 일반적으로 재순위 매기기 방법으로 사용됩니다. 즉, BM25와 같은 초기 순위 매기기 모델이 문서 풀을 제공하면 신경 방법으로 이 문서들을 재순위 매깁니다. 신경 접근법은 첫 단계 순위 매기기(즉, 밀도 검색)에도 적용되었습니다 [25, 50, 52]. ColBERT 모델 [25]은 BERT 기반의 쿼리와 문서 용어 표현을 기반으로 문서에 점수를 매깁니다. 쿼리와 문서 표현 간의 유사성이 합산되어 순위 점수가 됩니다. 이 모델은 표현에 대한 대략적인 검색을 통해 첫 단계 밀도 순위 매기기와 재순위 매기기 모두에 사용할 수 있습니다.
- CLMs는 신경 순위 매기기 작업에 사용되었습니다. Nogueira 등 [37]은 T5 모델(monoT5)을 사용하여 쿼리에 대한 문서의 관련성을 예측했습니다. Pradeep 등 [40]은 이 모델을 더 탐구하여 문서 쌍을 점수화하고 집계하는 버전(duoT5)과 함께 사용할 수 있음을 보여주었습니다. 이 두 모델은 쿼리와 문서 텍스트, 프롬프트가 주어진 상태에서 단일 토큰('true' 또는 'false'로 관련성) 예측에 있어서만 CLM을 사용합니다. 여기서 'true'의 확률이 순위 점수로 사용됩니다. Doc2query 모델 [38, 39]은 문서 텍스트에 따라 가능한 쿼리를 생성하여 역인덱스에 포함합니다.
- 이전 신경 순위 매기기 노력과 달리, 우리는 ad hoc 순위 매기기보다는 다양성 순위 매기기에 중점을 둡니다. 구체적으로, 우리는 쿼리 텍스트를 기반으로 가능한 쿼리 의도를 생성하기 위해 신경 CLM을 사용합니다. 이는 신경 순위 매기기에서 CLM을 사용하는 기존 방법과 다릅니다. 그런 다음 이러한 쿼리 의도를 사용하여 문서에 점수를 매기고 재순위 매깁니다. 우리가 알기로, 다양성 순위 매기기에 신경 순위 매기기 모델을 사용하는 것은 이번이 처음입니다. 신경 순위 매기기 및 재순위 매기기 모델에 대한 자세한 내용은 [27, 34]를 참조하십시오.
3 GENERATING QUERY INTENTS
- 이 섹션에서는 쿼리 의도 생성을 위한 제안된 IntenT5 모델(3.1절)과 모호한 쿼리를 처리하기 위해 의도된 두 가지 모델 적응: 분포적 인과 언어 모델링(3.2절) 및 표현 교체(3.3절)에 대해 설명합니다.
3.1 IntenT5
- 우리는 잠재적인 쿼리 의도를 생성할 수 있는 모델을 훈련하고자 합니다.
- 이 작업을 시퀀스-투-시퀀스 생성 문제로 공식화하여 사용자의 초기(불충분한) 쿼리에 대한 추가 용어를 예측합니다.
- 우리는 먼저 T5 [42] 모델을 쿼리 컬렉션에 대한 인과 언어 모델링 목표를 사용하여 미세 조정합니다.
- 이 훈련 방법은 검색 빈도, 세션 또는 클릭 정보를 필요로 하지 않으며, 쿼리 텍스트 컬렉션만 필요합니다.
- 이는 ORCAS [15] 쿼리 컬렉션과 같은 다양한 데이터 소스를 훈련에 사용할 수 있게 합니다.
- 쿼리 텍스트를 공개하는 것이 더 광범위한 상호작용 정보보다 개인 정보 보호에 대한 위험이 적기 때문에 바람직한 특성입니다.
- 시퀀스 𝑤가 𝑘개의 토큰으로 구성된 경우, 인과 언어 모델은 𝑃 (𝑤𝑘 |𝑤𝑘−1, 𝑤𝑘−2, ..., 𝑤1)을 최적화합니다.
- 생성할 의도가 여러 개인 경우 target string이 어떻게 구성되는거지?
- 같은 입력에 대해 다른 의도가 쌍인 데이터로 개별로 존재하는건가?
- 의도를 생성하기 위해, 우리는 빔 검색을 사용하여 높은 확률의 시퀀스를 식별합니다.
- 길이 패널티는 적용되지 않지만, 쿼리는 생성된 10개의 토큰으로 제한됩니다.
- 인퍼런스할떄는 빔서치로 여러 개 생성함
- 기본 필터링 기술을 적용하여 충분한 추가 컨텍스트를 제공하지 않는 생성된 의도를 제거합니다.
- 특히, 원래 쿼리에 나타나는 용어를 먼저 제거합니다.
- 신경 검색 모델은 단어 형태에 민감하기 때문에 [29], 이 필터에서는 정확한 용어 일치만 고려합니다.
- 또한 매우 짧은 의도(6자 미만, 예: “.com”)는 유용한 컨텍스트를 거의 제공하지 않으므로 폐기합니다.
- 필터링된 의도 중에서 가장 확률이 높은 상위 𝑛개 시퀀스를 선택합니다.
- 이 생성 과정은 완전히 결정적이므로 결과는 완전히 재현 가능합니다.
- 각 검색된 문서는 생성된 각 의도에 대해 점수가 매겨지고, 의도 점수는 xQuAD [43] 또는 PM2 [18]와 같은 확립된 다양화 알고리즘을 사용하여 집계됩니다.
- 즉 검색은 기존 쿼리로만 해서 문서를 가져오고
- 이 문서들에 대한 점수를 의도를 활용하여 sorting하는 느낌인듯
- 근데 이러면, 검색문서 후보가 꽤 많이 되야 의미가 있을거 같음 (rare한 의도에 대해서는 기존 쿼리로만 잘 검색이 안될거기 때문에)
- 우리의 접근 방식은 T5 대신 BART [26]와 같은 다른 사전 학습된 인과 언어 모델에도 적용될 수 있지만, 이러한 연구는 향후 과제로 남겨둡니다.
3.2 Distributional Causal Language Modeling
- 문서에서 발견되는 텍스트와 같은 일반적인 자연어 산문은 텍스트가 다양한 의미로 빠르게 분기되기 때문에 CLM에 잘 맞습니다.
- 예를 들어, 그림 3에서 "Penguins are"라는 접두어는 다양한 시퀀스(예: "a group of", "birds, not", "carnivores with" 등)로 분기됩니다.
- 접두어에 의해 구조화될 때, 이는 긴 토큰 체인으로 이어집니다.
- 반면, 키워드 쿼리는 일반적으로 계층적 접두어 기반 성격을 가지고 있습니다.
- 트리로 구조화되면 얕고 밀집된 경향이 있습니다.
- 예를 들어, 그림 3에서 'penguins'라는 접두어 뒤에는 다양한 용어의 분포가 따릅니다(예: adaptations, animals, hockey 등).
- 유사하게, 'penguins hockey'라는 접두어 뒤에는 다른 용어의 분포가 따릅니다(예: game, live, news, score 등).
- 이 관찰에 기반하여, 키워드 쿼리를 위해 설계된 인과 언어 모델링(CLM)의 새로운 변형인 분포적 인과 언어 모델링(DCLM)을 제안합니다.
- CLM과 달리, DCLM은 접두어 트리의 구축을 통해 학습 목표를 설정할 때 소스 컬렉션의 다른 텍스트를 고려합니다.
- 다시 말해, CLM이 각 시퀀스를 독립적으로 고려하는 반면, DCLM은 주어진 접두어를 따르는 용어의 분포를 구축합니다.
- 시각적으로, 접근 방식의 차이는 그림 4에 나타나 있습니다.
- 훈련 시, 접두어 트리는 접두어가 주어졌을 때 컬렉션 전체에서 모든 후속 토큰을 찾아 모델의 출력이 이 모든 토큰을 생성하도록 최적화합니다(동일한 확률로).
- DCLM의 훈련 과정은 알고리즘 1에 나와 있습니다.
- 먼저 주어진 데이터를 기반으로 Prefix Tree를 생성합니다. 이 트리는 각 prefix(접두어)가 어떤 후속 단어들을 가질 수 있는지를 나타냅니다. 트리는 다음과 같이 생성될 것입니다:
- penguins
├── adaptations
├── animals
│ └── facts
└── hockey
├── game
│ └── tonight
└── live
└── streaming
2. 학습 반복문 시작
트리를 생성한 후, 학습 과정은 다음과 같이 진행됩니다.
a. RandomSelect(tree.children)prefix
를 트리의 루트 자식 중에서 무작위로 선택합니다. 예를 들어prefix = "penguins"
을 선택했다고 가정합니다.
b. targets 설정
targets
는 선택한 prefix의 자식 노드들입니다. 즉,targets = ["adaptations", "animals", "hockey"]
가 됩니다.
c. 최적화 루프 시작
prefix[−1]
는 현재 prefix의 마지막 단어를 의미합니다. 처음에는prefix = ["penguins"]
이므로prefix[-1] = "penguins"
입니다.- 현재 prefix에 대한 후속 단어들을 최적화합니다. 즉,
Optimize P("adaptations", "animals", "hockey" | "penguins")
를 수행합니다.
d. 새로운 자식 선택
prefix
를 업데이트합니다.RandomSelect
를 사용하여prefix[-1].children
중에서 무작위로 선택합니다. 예를 들어,prefix[-1] = "penguins"
의 자식들 중에서 "hockey"를 선택했다고 가정합니다. 이제prefix = ["penguins", "hockey"]
가 됩니다.
e. 반복
- 이 과정을 반복하여
Optimize P("game", "live" | "penguins hockey")
를 수행합니다. - 다시 자식을 선택하여
prefix = ["penguins", "hockey", "game"]
으로 업데이트하고Optimize P("tonight" | "penguins hockey game")
을 수행합니다.
- GPT4설명이 맞는거 같은데, 그냥 CLM학습하는거랑 뭐가 크게 다른지 모르겠음
- penguins animals facts가 있으면, penguins animal </s>이렇게도 학습하고 penguins animal facets </s> 이렇게도 학습한다는 것이다.
- 그냥 단어단위로 구분지어서 데이터를 뿔려서 학습하는거 같음
- 결국 처음 예상대로, 여러 타겟이 있을 때 이를 하나의 string으로 concat하는게 아니라 각각 데이터를 따로보고 학습하는 형식이다
- 내가 해봤을때는 이렇게 하는것보다 그냥 concat해서 하는게 좀 더 효율적인 느낌이 들긴 했음
3.3 Representation Swapping
- Transformer 모델 - T5의 기본 신경망 구조 -에서는 토큰들이 맥락화된 벡터 표현으로 나타납니다.
- 이러한 표현은 토큰을 특정 의미에 매핑하며, 여러 신경 랭킹 모델(CEDR [30], TK [22], ColBERT [25] 등)은 이 점을 활용해 특정 단어의 의미를 매칭합니다.
- 일반적으로 텍스트 내 주변 단어들이 충분한 맥락을 제공하여 단어의 의미를 명확히 합니다.
- 그러나 짧은 쿼리에서는 이러한 맥락이 부족합니다.
- 예를 들어, 쿼리가 단일 용어로만 구성된 경우, Transformer 모델은 주로 우세한 의미(예: 쿼리 'penguins'의 경우 동물 의미)를 선택합니다.
- IntenT5 모델과 함께 사용할 때, 이는 생성된 의도가 다양한 의미를 포함하지 않게 만듭니다(섹션 6에서 이를 입증합니다).
- 이 문제를 해결하기 위해 'Representation Swapping (RS)'이라는 접근 방식을 도입합니다.
- RS는 각 용어에 대해 𝑘개의 원형 표현 집합을 구축하는 것에서 시작합니다.
- 이를 위해, 코퍼스에서 해당 용어를 포함하는 문구의 무작위 샘플을 선택합니다.
- 그런 다음, 각 문구에 대해 해당 용어의 내부 표현을 추출합니다.
- 다른 용어에서 제공하는 맥락 덕분에, 이러한 표현은 의미 정보를 포함합니다.
- 해당 용어에 대한 모든 표현을 𝑘개의 클러스터로 묶습니다.
- 각 클러스터에 대해, 클러스터 내 표현의 중간 값에 가장 가까운 표현을 찾아 원형 표현으로 선택합니다.
- 이 접근 방식을 통해 원형이 선택된 문장이 종종 다른 단어 의미를 표현한다는 것을 발견했습니다.
- 마지막으로, 쿼리를 처리할 때, IntenT5 모델은 원래 표현(쿼리 자체를 인코딩하여 얻은 표현)으로 한 번 실행되고, 그 후 각 용어에 대해 𝑘번 추가로 실행됩니다.
- 이 경우, 해당 용어의 내부 표현을 원형 표현으로 교체합니다.
- 이를 통해 T5 모델은 모호한 쿼리에 대해 원형 문장의 맥락을 상속받아 다른 의미를 기반으로 텍스트를 생성할 수 있습니다.
- 이 접근 방식은 긴 쿼리에서는 적용할 필요가 없습니다.
- 긴 쿼리는 자체적으로 충분한 맥락을 제공하기 때문입니다.
- 여기서 최대 쿼리 길이로 𝑙 파라미터를 도입합니다.
- 모델이 생성한 최종 의도는 xQuAD와 같은 다양성 집계 알고리즘을 사용하여 선택되며, 이는 생성된 의도가 다양한 의미를 잘 포함하도록 보장합니다.
- 예를 들면, 펭귄이라는 짧은 쿼리에 대해 의도를 생성한다고하자.
- 만약 긴 쿼리면 굳이 이 과정을 안하는거 같음 (threshold l을 기준으로)
- 펭귄을 포함하는 여려 문장을 샘플링한다.
- 이 샘플링 문장으로부터 펭귄에 해당하는 벡터를 추출한다.
- 그러면 펭귄에 대한 contextual한 벡터를 추출하는 것이다.
- 이렇게 하면, 펭귄에 대해 생성되는 의도가 동물에만 치우치는 것을 보완한다고함 (섹션 6 참고)
- 벡터 뽑을때는 T5 encoder로 하는 거겠지?
- 이 벡터들간의 클러스터링을 돌려 k개로 묶는다
- 각 클러스터에서 각 클러스터 평균 벡터?에 가장 가까운 벡터가 있을 것이다
- 그 평균에 가장 가까운 벡터로부터 의도를 생성한다.
- T5 encoder에서부터 T5 decoder로 넘기는 듯
- 즉 k개 클러스터링을 했으니 intent5을 k번 돌린다는 의미
- 생성된 여러 의도는 xQuAD같은 다양성 집계 알고리즘?으로 선택한다고함
- 이 알고리즘은 뭐지?
- 그림2를 보면, 아마도 리랭킹된 문서를 취합하는 알고리즘 같음.
4 EXPERIMENTAL SETUP
- 우리는 다음 연구 질문에 답하기 위해 실험을 진행합니다:
- RQ1: IntenT5에서 생성된 의도를 사용하여 검색 결과를 다양화할 수 있는가?
- RQ2: IntenT5의 훈련 데이터에 나타난 쿼리는 그렇지 않은 쿼리보다 성능이 더 좋은가?
- RQ3: IntenT5는 모호하거나 다면적인 쿼리에서 더 잘 수행되는가?
- RQ4: 분포적 인과 언어 모델링 목표로 훈련하거나 표현 교환을 수행하는 것이 생성된 의도의 품질을 향상시키는가?
4.1 IntenT5 Training and Settings
- IntenT5는 중간 크기의 쿼리 컬렉션에 대해 훈련될 수 있지만, 우리는 ORCAS [15] 데이터셋의 쿼리를 사용하여 모델을 훈련합니다.
- 이 데이터셋은 10.4M개의 고유한 쿼리를 포함하고 있으며, 중간 크기일 뿐만 아니라 연구자들이 데이터 사용 계약 없이 쉽게 접근할 수 있습니다.
- ORCAS의 쿼리는 Bing 로그에서 수집되었으며, MS MARCO [3] 문서 데이터셋에서 문서를 클릭한 사용자들의 쿼리만 포함하도록 필터링되었습니다.
- 이 컬렉션의 쿼리는 평균 3.3개의 텀을 포함하며, 대부분의 쿼리는 2 또는 3개의 용어로 구성되어 있습니다.
- IntenT5 모델은 t5-base에서 기본 파라미터(학습률: 5 × 10⁻⁵, 3 에포크, Adam 옵티마이저)를 사용하여 미세 조정되었습니다.
- RS를 적용할 때, 우리는 𝑘 = 5, 𝑙 = 1, xQuAD와 𝜆 = 1을 사용하며, 파일럿 연구 동안의 질적 관찰에 기반하여 집합적 클러스터링을 사용합니다.
- 우리의 테스트 코퍼스를 편향하지 않기 위해 MS MARCO 문서 코퍼스에서 용어당 1,000개의 패시지를 선택합니다.
4.2 Evaluation
- 우리는 TREC Web Track (WT) 2009–14 다양성 벤치마크 [8–11, 13]에서 접근 방식의 효과를 평가합니다.
- 이 벤치마크는 총 300개의 주제와 1,090개의 하위 주제로 구성되어 있습니다.
- Table 1은 이 데이터셋의 요약을 제공합니다.
- 이러한 벤치마크는 두 개의 코퍼스를 포함합니다: WT09–12는 ClueWeb09-B (5천만 문서)를 사용하고, WT13–14는 ClueWeb12-B13 (5천2백만 문서)을 사용합니다.
- 우리는 정보 요구가 명확하지 않은 설정을 시뮬레이션하여 키워드 기반 "title" 쿼리를 사용합니다.
- 우리가 아는 한, 이것은 검색 결과 다양화 평가를 위한 가장 크고 포괄적인 공개 벤치마크입니다.
- 우리는 세 가지 다양화 인지 평가 지표 변형을 사용하여 시스템 성능을 측정합니다:
- 𝛼-nDCG@20 [7], ERR-IA@20 [5], 및 NRPB [12].
- 이것들은 WT10–14의 공식 태스크 평가 메트릭입니다 (WT09는 𝛼-nDCG@20 및 P-IA@20을 사용했습니다).
- 𝛼-nDCG는 주제의 참신함을 고려한 nDCG [23]의 변형입니다.
- 우리는 이 측정에 대해 기본 𝛼 파라미터(잘못된 긍정 판단의 확률) 0.5를 사용합니다.
- ERR-IA는 각 의도의 예상 상호 순위를 단순 평균한 것입니다.
- NRPB (Novelty-and Rank-Biased Precision)는 RBP [35]의 확장으로, 사용자가 검색 결과를 스캔할 때 얻는 평균 유용성을 측정합니다.
- 메트릭은 공식 태스크 평가 스크립트 ndeval에서 계산되었습니다.
- 더욱이, 이러한 테스트 컬렉션은 신경 랭킹 모델의 등장 이전에 생성되었기 때문에, 우리는 상위 20개 결과 중에서의 평가율(Judged@20)도 보고하여 이러한 신경 모델의 존재 하에서 관련성 평가 풀의 완전성을 확인합니다.
- 차이의 유의성을 테스트하기 위해, 우리는 𝑝 < 0.05의 유의 수준으로 대응 표본 t-검정을 사용하며, 적절한 경우 Bonferroni 보정을 통해 여러 테스트를 고려합니다.
- 일부 경우에는 유의한 동등성을 테스트합니다 (즉, 평균이 동일하다는 것).
- 이러한 테스트를 위해, 우리는 𝑝 < 0.05의 유의 수준으로 두 개의 일방 테스트 (TOST [47])를 사용합니다.
- 검색 효과를 위한 TOST를 사용하는 이전 연구에 따라 [31], 우리는 허용 가능한 동등성 범위를 ±0.01로 설정합니다.
4.3 Baselines
- 우리 방법의 성능을 맥락화하기 위해 several adhoc and diversity 기준선을 포함했습니다.
- 임시 기준선으로는 DPH [2], 파일럿 연구에서 BM25보다 성능이 뛰어난 것으로 나타난 어휘 모델, Vanilla BERT [30], monoT5 [37], 그리고 ColBERT [25] 재순위기와 비교했습니다.
- 베이스라인이란게, 검색결과가 얼마나 다양한지를 살펴보기 위함
- 즉 검색결과를 리랭커하는 것을 말하는건가?
- 예) 그림 2보면, BM25로 질의에 대해 검색결과를 가져옴. 이 검색문서들을 생성된 query intent을 통해서 점수를 매겨서 재랭킹함. 재랭킹된걸 sQuAD와 같은 방법으로 최종 결과를 보여줌.
- 신경 모델은 최대 시퀀스 길이가 있기 때문에 MaxPassage [16] 점수 산정 방법을 적용했습니다.
- 패시지는 150개의 토큰(보폭 75)의 슬라이딩 윈도우를 사용하여 구성했습니다.
- Vanilla BERT의 경우, 원작자의 공개 코드를 사용하여 MS MARCO에서 모델을 훈련했습니다.
- monoT5와 ColBERT의 경우, 원작자가 MS MARCO 데이터셋 [3]에서 훈련한 버전을 사용했습니다.
- MS MARCO에서 다른 데이터셋으로의 이러한 형태의 제로샷 전이는 일반적으로 효과적인 것으로 나타났으며 [28, 37], 테스트 컬렉션에 과적합될 위험을 줄입니다.
- Google Suggestions.
- 우리는 구글 검색 엔진이 공개 API를 통해 제공하는 검색 제안과 비교합니다.
- 시스템의 정확한 세부 사항은 비공개지만, 상호작용 데이터가 검색 제안 생성에 중요한 역할을 한다는 공개 정보가 있습니다 [45].
- 이는 쿼리 로그를 기반으로 한 접근 방식에 강력한 기준선이 됩니다.
- 또한, 이 기술은 이전의 검색 결과 다양화 작업에서 쿼리 의도의 출처로 많이 사용되었습니다 [18, 43].
- 제안은 언어, 지리적 위치, 현재 트렌드에 민감하다는 점에 유의하십시오.
- 우리는 미국의 영어로 된 제안을 사용합니다(TREC 평가자들이 미국에 기반을 두었기 때문입니다).
- 재현성을 위해 이 제안의 사본을 공개할 것입니다.
- Gold Intents.
- 우리는 또한 TREC 태스크에서 제공하는 "골드" 의도를 사용하는 시스템과 비교합니다.
- 이는 평가 기준을 나타내며 사전에 알려지지 않기 때문에 현실적인 시스템은 아닙니다.
- 또한, 이러한 의도의 텍스트는 키워드 기반 쿼리를 설명하는 것과 달리 자연어로 제공됩니다(TREC 설명 쿼리와 유사).
- 따라서, 이러한 골드 의도는 종종 다양화 효과의 잠재적 상한선을 나타낸다고 보고되지만, 이후에 IntenT5가 생성한 의도가 실제로 이 골드 의도보다 뛰어날 수 있음을 보여줄 것입니다.
4.4 Model Variants and Parameter Tuning
- 우리는 IntenT5, 구글 제안, 골드 의도의 의도를 xQuAD [43]와 PM2 [18]을 사용하여 집계합니다.
- 이는 두 가지 강력한 비지도 집계 기술을 나타냅니다.
- 모든 모델에 대해 생성된 의도의 수와 집계 𝜆 파라미터를 나머지 컬렉션에서 그리드 검색을 통해 튜닝합니다(예: WT09의 파라미터는 WT10–14에서 튜닝됩니다).
- 우리는 1-20개의 의도(단계 1)와 𝜆 0-1(단계 0.1) 사이를 검색합니다.
- 신경 모델은 상위 100개의 DPH 결과를 재정렬합니다.
- 요약하면, 초기 문서 풀 100개는 DPH를 사용하여 검색됩니다.
- 그런 다음 IntenT5(또는 기준 방법)를 사용하여 의도가 선택됩니다.
- 각 의도에 대해 문서는 DPH, Vanilla BERT, monoT5 또는 ColBERT를 사용하여 다시 점수가 매겨집니다.
- 그런 다음 점수는 xQuAD 또는 PM2를 사용하여 집계됩니다.
5 RESULTS
- 이 섹션에서는 IntentT5의 전반적인 효과에 대한 연구 질문의 결과를 제공합니다(섹션 5.1).
- 이어서 훈련 데이터에 나타나는 쿼리의 영향(섹션 5.2), under-specification 유형(섹션 5.3), 마지막으로 모호한 쿼리에 대한 영향(섹션 5.4)을 다룹니다.
- 이후 섹션 6에서는 생성된 쿼리에 대한 질적 분석을 제공합니다.
5.1 RQ1: IntenT5 Effectiveness
- 표 2에서 WT09-14에 대한 다양성 결과를 제시합니다.
- 일반적으로 IntenT5 접근 방식이 PM2 또는 xQuAD를 사용하여 집계할 때 어휘 및 신경 모델 모두에 대한 검색 결과 다양성을 개선할 수 있음을 발견했습니다.
- 사실, IntenT5를 사용할 때 다양성이 크게 향상되지 않는 경우는 (xQuAD 집계와 monoT5 점수로 설정된 경우) 하나뿐입니다.
- 전반적으로 성능이 가장 우수한 결과는 IntenT5를 사용하는 경우입니다 (PM2 집계와 ColBERT 점수).
- 이러한 결과는 Google 제안 및 Gold 의도를 사용하는 해당 버전보다 현저하게 우수합니다.
- 마찬가지로 Vanilla BERT를 사용할 때 IntenT5도 Google 제안을 사용하는 모델보다 현저하게 우수한 결과를 내놓습니다.
- DPH 및 monoT5를 사용할 때 IntenT5의 다양성 효과는 Google 제안과 유사하며 차이는 통계적으로 유의하지 않습니다.
- 그러나 TOST를 사용하여 동등성 테스트를 진행한 결과, 모든 평가 메트릭을 통해 평균이 동등하다는 충분한 증거가 없다는 것을 발견했습니다.
- 흥미롭게도, Vanilla BERT 및 ColBERT와 같은 BERT 기반 모델은 Google 제안이나 Gold 의도보다 IntenT5 쿼리에 더 수용적입니다.
- 이는 어떤 기저 언어 모델(BERT의 경우)은 다른 것보다 인공적으로 생성된 의도에서 더 많은 혜택을 받을 수 있다는 것을 시사합니다.
- 이러한 결과는 RQ1에 명확한 답변을 제공합니다:
- IntenT5에서 생성된 의도는 검색 결과의 다양성을 현저하게 개선하는 데 사용될 수 있습니다.
- 더욱 놀랍게도, 이들은 Google 제안과 Gold 의도를 능가할 수도 있습니다.
5.2 RQ2: Effect of Queries in Training Data
- IntenT5 모델이 새로운 쿼리에 대한 일반화를 위해 사전 훈련 프로세스에서 학습한 언어 특성을 활용하는 대신 훈련 데이터 세트에 있는 데이터를 단순히 암기할 수도 있습니다.
- 이를 조사하기 위해 ORCAS에 쿼리가 나타나는 빈도를 대표하는 거의 같은 크기의 세 개의 버킷으로 데이터 세트를 분류합니다.
- 간단한 대소문자 무시 문자열 일치를 사용하고 텍스트의 어디에서든 일치하는 경우를 계산합니다(텍스트의 시작 부분에만 나타나는 것이 아님).
- WebTrack 다양성 쿼리의 대략 1/3는 ORCAS에 전혀 나타나지 않거나 한 번만 나타납니다.
- 이러한 쿼리에 대해 IntenT5는 일반화할 필요가 있습니다.
- 다음 버킷(ORCAS에 2-37회 발생)에는 WebTrack 쿼리의 다음 대략 1/3이 포함되며, 38회 이상의 쿼리가 마지막 버킷을 형성합니다.
- 이 실험 결과를 표 3에서 제시합니다.
- 여기서 IntenT5 모델이 일반화가 필요한 경우(첫 번째 버킷) 또는 암기가 가능한 경우(두 번째 버킷)에 뛰어난 성과를 보입니다.
- 16개 케이스 중 11개에서 IntenT5는 Google 제안보다 높은 점수를 얻습니다.
- 또한, IntenT5는 두 버킷 모두에서 전체적으로 가장 높은 효과를 보입니다.
- 각각 0.5484 및 0.4934(콜버트 + IntenT5 + PM2)입니다. 훈련 데이터에서 많은 발생이 있는 경우 IntenT5가 기준 시스템을 현저하게 능가하지 않습니다.
- 예상대로 Google 제안이 이러한 쿼리에 대해 IntenT5보다 높은 점수를 얻습니다(8개 케이스 중 6개).
- ORCAS에서 자주 발생하는 쿼리는 일반적으로 자주 발생하기 때문에 Google 제안은 방대한 상호 작용 로그에서 빈도 정보를 활용할 수 있습니다(ORCAS에는 없음).
- 훈련 데이터 빈도의 영향을 더 잘 이해하기 위해 생성된 의도의 예제를 질적으로 평가합니다.
- 예를 들어, ORCAS에서 한 번만 나타나는 "gmat prep classes" 쿼리는 "requirements", "registration", "training"과 같은 의도를 생성합니다.
- 이는 Gold 의도와 완벽하게 일치하지는 않지만 "near me", "online", "chicago" 등과 같은 구체적인 위치에 초점을 맞춘 Google 제안보다 우선합니다.
- 또한, IntenT5 모델이 일반화할 수 있는 능력을 보여줍니다. "used car parts" 쿼리는 ORCAS에서 13번 발생합니다.
- IntenT5는 ORCAS에 있는 쿼리 중 일부(예: "near me")를 생성하지만 다른 쿼리(예: "catalog")는 생성하지 않습니다.
- "toilets" 쿼리는 ORCAS에서 556번 발생합니다.
- IntenT5는 훈련 데이터에 있는 쿼리(예: "reviews")와 그렇지 않은 쿼리(예: "installation cost")를 생성합니다.
- 이러한 결과는 RQ2에 대한 답변입니다.
- IntenT5는 훈련 데이터에서 본 것 이상으로 효과적으로 일반화합니다.
- 그러나 빈번한 케이스에서는 어려움을 겪을 수 있습니다.
- 이는 드문 쿼리에 대한 의도가 IntenT5에서 생성되고, 자주 발생하는 쿼리에 대한 의도가 상호 작용 데이터에서 추출될 수 있는 앙상블 접근 방식이 유익할 수 있다는 것을 시사합니다.
- 이 부분은 향후 연구에 남겨집니다.
- 즉 unseen에 대해서 잘 작동한다는 말인듯
5.3 RQ3: Types of Under-specification
- RQ3에 대한 답변으로, 언더-스펙 지정된 쿼리는 다면적 또는 모호한 것으로 간주될 수 있습니다.
- TREC 레이블에 따라 IntenT5의 성능을 조사하여 다양한 유형의 쿼리에서의 성능을 평가합니다.
- WT13-14에는 완전히 지정된 ("단일"이라고 함, 예: "레미제라블 리뷰") 49개의 쿼리도 포함됩니다.
- 표 4는 이러한 결과를 제공합니다.
- IntenT5는 다면적 쿼리를 처리하는 데 뛰어나며 종종 상당한 이득을 얻습니다.
- 그러나 모호한 쿼리의 경우, IntenT5는 기준에 비해 거의 개선되지 않습니다.
- 모호한 쿼리 세트가 상당히 작기 때문에(총 62개의 쿼리), 모든 의도 전략이 모호한 쿼리에 어려움을 겪는다는 점에 유의해야 합니다.
- 그러나 미래에 더 많은 모호한 웹 검색 순위 평가 데이터셋을 생성하는 동기가 될 수 있으며, 이를 통해 이 흥미로운 도전적인 문제를 더 자세히 연구할 수 있습니다.
- 마지막으로, IntenT5가 완전히 지정된 쿼리의 성능도 향상시킬 수 있음을 알 수 있습니다.
- 특히 Vanilla BERT와 ColBERT에서는 비다양화된 모델이 DPH에 비해 현저하게 성능이 떨어지는 경우가 있는데, IntenT5가 이러한 경우에서 성능을 개선시킬 수 있습니다.
- 흥미롭게도, monoT5에 대해 이와 유사한 행동을 관찰하지 못했으며, 이러한 행동은 기저 언어 모델(BERT 대 T5)에 따라 달라질 수 있다는 것을 시사합니다.
- 이러한 결과는 RQ3에 대한 답변입니다.
- IntenT5는 다면적 쿼리의 다양성을 향상시키고, 완전히 지정된 쿼리에 대한 ColBERT의 성능도 개선합니다.
- 그러나 대안적 접근 방식과 마찬가지로, 모호한 쿼리에 대한 효과적인 의도를 생성하는 데 어려움을 겪습니다.
- 모호한 쿼리에 대해서는 성능 향상이 두드러지 않는다? 사실 검색자체를 생성된 facet들로 같이 검색해줘야 다양화가 잘 일어날거 같은데.. 여기서는 기존 쿼리에 대해서만 검색하니까 한계가 있는게 아닐까?
5.4 RQ4: Handling Ambiguous Queries
- 모호한 쿼리를 처리하는 데 어려움이 있는 것으로 보이므로, 이 문제를 극복하기 위한 두 가지 제안된 접근 방식인 분포적 인과 언어 모델링(DCLM, 섹션 3.2에서 소개됨)과 표현 교환(RS, 섹션 3.3에서 소개됨)을 조사합니다.
- monoT5 및 ColBERT가 모호한 쿼리에서 IntenT5를 가장 효과적으로 사용한다는 점을 감안하고, 우리는 이러한 모델에 중점을 두고 조사를 집중합니다.
- 표 5는 쿼리 유형별로 분류된 이러한 접근 방식의 효과를 제시합니다.
- 일반적으로 이러한 접근 방식의 조합을 사용하여 미미한 차이만 관찰됩니다.
- 모호한 쿼리에 대한 가장 효과적인 조합(monoT5 + IntenT5 + DCLM + xQuAD)은 monoT5 + IntenT5 + xQuAD보다 현저하게 효과적이지 않습니다.
- 각 접근 방식에 대해 생성된 쿼리를 자세히 살펴보면, DCLM과 RS를 사용하여 생성된 의도가 기본 IntenT5 모델보다 훨씬 다양한 경우가 있음을 확인할 수 있습니다.
- IntenT5에 의한 penguins 쿼리의 상위 의도는 meaning, history, habitat, information, definition입니다.
- 사실, 상위 20개의 의도 중 모두 동물과 관련된 것이거나 매우 일반적입니다.
- 한편, DCLM은 많은 일반적인 의도를 극복하며, 쿼리는 대부분 하키 팀으로 기울어집니다:
- schedule, website, wikipedia, highlights, and merchandise입니다.
- 이 문제는 DCLM과 RS를 모두 적용할 때 해결되며, 다음을 생성합니다:
- wikipedia, tickets, population, schedule, and website; 양쪽 의미를 모두 포함합니다.
- 논문에서 제안한 DCLM과 RS의 효과를 살펴본건데
- 수치상으론 성능이 크게 차이가 있어보이진 않는데?
- 근데 위 예시처럼, 펭귄이 입력일 때, 다양한 의도들을 생성하게 됨
- 이건 근데 체리픽이고, 다른 쿼리에 대해서는 잘 수행되지 않은 경우도 있을 듯
- 일부 쿼리에 대한 분명한 이점이 있지만, 이 접근 방식은 다른 쿼리에서 드리프트를 유발할 수 있으며, 때로는 중요한 의도를 파악하지 못할 수 있습니다.
- 예를 들어, IntenT5 + DCLM + RS로 생성된 iron 쿼리의 의도는 영양 소개에 크게 초점을 맞추고, 요소나 가전 제품 의미를 식별하지 못합니다.
- RQ4에 답하기 위해, DCLM 및 RS와 같은 접근 방식은 격리된 경우에 다양성을 향상시킬 수 있지만, 이러한 접근 방식이 전반적으로 랭킹 다양성을 향상시킬 수 있는 충분한 증거가 없습니다.
- 수치적으로는 향상이 안되서 증거가 부족하다
- 그럼 저자가 제안한 방법론의 의미가 좀 떨어지는거 아닌가?
- 또한 DCLM 및 RS 접근 방식 간에 효과 차이가 없음을 발견합니다.
6 ANALYSIS
- 검색 결과 다양성을 명시적으로 수행하는 장점 중 하나는 생성된 의도가 자연어로 표현되어 해석될 수 있다는 것입니다.
- 표 6에서는 우리 모델이 생성한 상위 5개의 의도와 Google의 상위 쿼리 제안을 제시합니다.
- penguins의 실행 예를 살펴보면, Google은 두 가지 의미(애니메이션 영화와 하키 팀)를 식별하는 반면, 우리 모델은 동물과 하키 팀을 식별할 수 있습니다.
- mitchell college 쿼리의 경우, 우리 모델은 몇 가지 중요한 측면을 식별하며, Google 검색 제안도 동일한 중요한 측면을 식별합니다.
- 이것은 암기 때문이 아닙니다;
- 훈련 컬렉션에 텍스트 mitchell college이 포함된 유일한 쿼리는 william mitchell college of law 및 william mitchell college of law ranking입니다.
- 이러한 품질은 모델이 훈련 데이터를 넘어서 일반화할 수 있는 능력을 보여주므로 매력적입니다.
- 반면에, 우리 모델은 (가상의) wendleton college과 같은 정보를 구축하기 취약할 수 있습니다.
- 이러한 일반화가 전적으로 대학이라는 접두어에 내재되어 있지는 않지만, 미국 정부의 과정인 선거대학(길게 쓴 이름은 electoral college)이 비슷한 쿼리를 생성하지 않는 것을 고려할 때 이러한 결과는 다양성을 나타냅니다.
- 이러한 결과는 5.2절에서의 관찰에 대한 질적 증거를 제공합니다.
- IntenT5는 훈련 데이터에서 본 것 이상으로 효과적으로 일반화할 수 있습니다.
- 그러나 이러한 품질이 일부 상황에서는 원하지 않을 수 있다는 점을 인정합니다.
- solar panels 쿼리의 경우, 우리 모델은 다중 단어 의도(신경 모델에 유익할 수 있음)를 생성할 수 있지만 때로는 일반적인 접두사(e.g., "install")에 갇힐 수 있습니다.
- 또한, 특정 위치를 지정하여 유용한 추천을 제공하는 데 어려움을 겪을 수 있습니다.
- IntenT5와 DCLM 및 RS를 사용하면 condos in florida 및 condos in new york 쿼리에 대해 각각 beachfront 및 nyc와 같은 중요한 의도를 예측할 수 있지만, 기본 IntenT5 모델은 주로 일반적인 의도에 의존하거나 대체 위치를 제안합니다.
- 한편, Google 제안은 일관되게 특정 위치에 대한 의도를 제공할 수 있습니다.
- 종합적으로, 이 분석은 IntenT5가 현재 쿼리에 대한 인식을 나타내는 의도를 생성하고, DCLM 및 RS 접근 방식이 모델의 출력을 상당히 변경할 수 있음을 보여줍니다.
- 이러한 의도는 상호 작용 데이터에서 제공되는 상업적인 검색 엔진의 의도와 자주 비교됩니다.
7 CONCLUSIONS
- 저희는 명시적인 검색 결과 다양성을 위한 잠재적인 쿼리 의도를 생성하기 위한 새로운 방법인 IntenT5를 제안했습니다.
- TREC WebTrack 2009-2014 데이터셋(총 300개의 테스트 쿼리)을 통해 이 접근 방식이 비지도 검색 결과 다양성 알고리즘 및 신경망 재순위화기(Vanilla BERT 및 ColBERT와 같은)와 함께 사용될 때 다른 쿼리 의도 소스를 크게 앞서는 것을 발견했습니다.
- 구체적으로, Google이 제공하는 쿼리 제안에 비해 최대 15%의 상대적인 개선을 확인했습니다(NRBP로 측정하여 Vanilla BERT로 재순위화하고 PM2로 집계할 때).
- 제안된 방법은 다면적 쿼리에서 성능을 크게 향상시키고 완전히 지정된 쿼리의 단점을 극복할 수 있습니다.
- IntenT5가 모호한 쿼리를 처리하는 데 어려움을 겪는다는 것을 발견하고, 이 모호성을 극복하기 위한 두 가지 접근 방식을 제안했습니다.
- 이러한 접근 방식이 생성된 의도를 질적으로 개선할 수 있지만, 이러한 수정이 종합적으로 유익한지에 대한 충분한 증거를 찾지 못했습니다.
- 이는 미래 연구를 위한 더 크고 포괄적인 모호한 쿼리 데이터셋을 생성할 동기를 제공합니다.
- 중요한 점은 우리의 접근 방식이 훈련 데이터에 없던 쿼리에도 일반화될 수 있다는 것을 확인했습니다.
- 검색 결과 다양성의 맥락에서 컨텍스트화된 언어 모델의 사용을 조사한 첫 작업으로, 우리는 다중 의미를 가진 쿼리 용어를 처리하는 등 지속적인 과제를 조사하기 위한 기초를 마련했습니다.
Reference
댓글
댓글 쓰기