NL-174, Learning Multiple Intent Representations for Search Queries, CIKM 2021
◼ Comment
- 이 논문은 생각보다 양이 너무 많았고.. 생소한 분야라 잘 이해가 안되서 읽는데 오래 걸림 ㅠ
- 용어에 대해서는 chatgpt한테 물어보면 잘 설명해준다 ㅎㅎ 아래참고
- 이 논문의 목적은 쿼리가 들어왔을 때, 다양한 representation을 추출하기 위함이다.
- 테이블 3의 예시)
- 질의: best fps games
- facet 생성: best fps games for steam ■ best fps games for pc ■ best fps games for ps4 ■ best fps games for xbox one ■ best fps games for android
- 즉 질의만으로 검색하기 뭔가 내용이 부족할때, facet을 생성할 필요가 있는데, facet은 query로부터 생성을 하게 될 것이다.
- 즉 query의 다양한 representation이 추출해서 거기서로부터 facet을 생성하는 식으로 활용할 수 있을 것이다.
- 따라서 논문의 목적은 query의 여러 representation을 구하는 것이다.
- query로부터 representation을 구하진 않고, query을 검색 날려서 나온 top-k documents을 조인트하게 attention하여 representation을 구한다.
- 학습할 때는, query intent description의 데이터에 접근할 수 있도록 주어지는 것이다.
- 따라서 각 intent description과 연관된 document을 매칭한다.
- 이때 query=q, intent description=x과 연관된 document=y라고하면 (q,Y)을 Guided Transformer 입력으로 넣어서 인코딩의 출력을 생성한다.
- 그리고 decoder에는 (q, x1, x2,...,xk-1)가 들어가고 xk가 생성하도록 한다.
- 즉 인코딩은 query와 연관된 document을 통해서 여러 representation을 만들고, 이것을 통해 auto-regressive하게 intent description을 하나씩 생성하는 것이다.
- 이런식으로 intent description을 생성하는 이유는, 이전의 intent description을 보고 다른 description을 생성할 수 있게 하기 위함이다.
- (intent)facet generation외에 추가적으로 representation을 통해 Clarifying Question Selection을 하는 것도 테스트했다.
- 즉 질의와 연관된 Clarifying Question 후보들을 랭킹매기는? 스코어매기는? 그런 테스트에도 NMIR을 적용하면 성능이 올라간다고 보여준다.
- 아무쪼록 전체적인 용어에 대한 이해도 하고, MIMICS 데이터등을 활용하는 것도 살펴봤다.
- 근데 아키텍쳐가 좀 복잡한 편이여서, 뭔가 이게 최선인가? 라는 느낌이 들긴한다.
- facet generation도 그냥 한번에 (q,x1,x2,...xn) 이렇게 모든 입력을 decoder에 다 넣고 BART 학습시키면 결국 앞의 것만 attention 하기 때문에 같은거 아닌가? 라는 의문도 남는다.
- 개인적으로 비슷한 연구개발을 하는데, document을 활용할 수 없다면 모델 구조는 encoder 부분 날리고, decoder 부분만해서 걍 여러 intent description을 생성하도록 해야하나? 싶다
용어 using chatgpt
Query facet extraction은 검색 쿼리에서 유용한 정보를 추출하기 위한 기술 중 하나입니다. 이때 'facet'은 검색 결과를 분류하기 위한 요소나 항목을 말합니다.
예를 들어, 쇼핑몰 검색에서 "신발"이라는 검색어를 입력하면, 검색 결과로 여러 가지 신발이 나타날 수 있습니다. 이때 "브랜드", "색상", "가격대" 등의 요소를 facet으로 사용하여 검색 결과를 분류하면, 사용자는 더욱 원하는 제품을 쉽게 찾을 수 있습니다.
따라서 query facet extraction은 검색 쿼리에서 이러한 facet을 추출하여 검색 결과를 더욱 유용하게 분류하고 제공하는 기술입니다.
- 쿼리 패싯 추출은 주어진 쿼리 또는 검색어에서 중요한 패싯 또는 측면을 식별하고 추출하는 프로세스를 말합니다. 패싯은 검색 중인 정보의 특정 차원 또는 특성으로 정의할 수 있습니다.정보 검색의 맥락에서 쿼리 패싯 추출은 사용자의 의도를 이해하고 사용자의 검색 쿼리와 일치하는 관련 패싯을 제공하여 검색 결과의 관련성과 정확성을 향상시키는 데 사용됩니다.예를 들어 사용자가 "스마트폰"을 검색하는 경우 쿼리 패싯 추출 프로세스는 브랜드, 운영 체제, 화면 크기, 카메라 품질, 가격 범위 및 사용자가 관심을 가질 수 있는 기타 관련 속성과 같은 패싯을 식별할 수 있습니다. 이러한 측면을 사용자에게 제공하면 검색 엔진은 사용자의 검색 의도와 일치하는 보다 관련성 있고 개인화된 결과를 제공할 수 있습니다.쿼리 패싯 추출은 엔터티 인식, 명명된 엔터티 인식, 품사 태깅과 같은 고급 자연어 처리(NLP) 기술이 필요한 까다로운 작업입니다. 정보 검색 분야의 활발한 연구 분야이며 검색 엔진, 전자 상거래 및 온라인 추천 시스템에서 수많은 실용적인 응용 프로그램을 보유하고 있습니다.
- 사용자가 "시애틀 시내 최고의 커피숍"이라는 쿼리를 입력한다고 가정합니다. 쿼리 패싯 추출 프로세스는 쿼리를 분석하고 다음 패싯을 식별합니다.
- 위치: "다운타운 시애틀"
- 카테고리: "커피숍"
- 순위 기준: "최고"
위치 패싯은 지리적 관심 영역을 지정하고 범주 패싯은 사용자가 검색하는 비즈니스 유형을 나타냅니다. 순위 기준 패싯은 사용자가 등급, 리뷰 또는 기타 요소를 기반으로 할 수 있는 어떤 척도로 "최고"로 간주되는 커피숍을 찾고 있음을 나타냅니다.쿼리에서 이러한 패싯을 추출함으로써 검색 엔진은 사용자의 의도와 일치하는 더 관련성 높은 결과를 제공할 수 있습니다. 예를 들어 커피에 대한 높은 평가를 받았거나 수상 경력이 있는 시애틀 시내의 커피숍에 우선순위를 둘 수 있습니다.또한 쿼리 패싯 추출은 사용자의 기본 설정 및 사용 가능한 데이터에 따라 가격 범위, 분위기 및 메뉴 제공과 같은 기타 관련 패싯을 식별할 수도 있습니다. 보다 상세하고 개인화된 검색 경험을 제공함으로써 쿼리 패싯 추출은 사용자가 필요한 정보를 보다 효율적이고 효과적으로 찾는 데 도움이 될 수 있습니다.
- 다음은 예제를 사용하여 쿼리 패싯 생성에 대한 설명입니다.쿼리 패싯 생성은 주어진 쿼리에서 관련 패싯을 자동으로 식별하고 추출하는 프로세스를 말합니다. 패싯은 검색 결과를 구체화하고 좁히는 데 도움이 될 수 있는 검색 중인 정보의 특정 차원 또는 특성입니다.예를 들어 "best digital cameras under $500"라는 검색어를 생각해 보십시오. 쿼리 패싯 생성 프로세스는 쿼리를 분석하고 다음 패싯을 식별합니다.
- Ranking criteria: "best"
- Category: "digital cameras"
- Price range: "under $500"
순위 기준 패싯은 사용자가 리뷰 또는 평가와 같은 일부 측정값을 기반으로 "best" 디지털 카메라를 찾고 있음을 나타냅니다. 범주 패싯은 검색 중인 제품 유형을 지정하고 가격 범위 패싯은 사용자의 예산 제약을 나타냅니다.쿼리에서 이러한 측면을 추출함으로써 검색 엔진은 사용자의 검색 의도와 일치하는 보다 관련성 있고 개인화된 검색 결과를 제공할 수 있습니다. 예를 들어 검색 엔진은 높은 평가를 받고 사용자가 지정한 가격 범위에 속하는 디지털 카메라에 우선 순위를 지정할 수 있습니다.쿼리 패싯 생성은 정보 검색에서 중요한 기술이며 검색 엔진, 전자 상거래 및 온라인 추천 시스템에서 수많은 실용적인 응용 프로그램을 가지고 있습니다. 사용자 쿼리에서 관련 패싯을 자동으로 생성함으로써 검색 엔진은 사용자의 요구와 선호도에 더 잘 맞는 보다 정확하고 개인화된 검색 결과를 제공할 수 있습니다.
- 1. Spelling Correction: 사용자가 "nutral facts about oranges"을 검색하는 경우 검색 엔진은 보다 정확한 결과를 제공하기 위해 "nutral"의 철자를 "nutritional"로 수정하도록 제안할 수 있습니다.
- 2. Query Expansion: 사용자가 "best hiking trails"를 검색하는 경우 검색 엔진은 검색 결과를 확장하고 더 많은 옵션을 제공하기 위해 "national parks" or "mountain ranges"과 같은 관련 용어를 추가하도록 제안할 수 있습니다.
- 3. Query Restriction: 사용자가 "iphone reviews"를 검색하는 경우 검색 엔진은 "in the past year" or "for the iPhone 12 model"과 같은 제약 조건을 추가하여 결과를 가장 최근 또는 관련 리뷰로 좁힐 것을 제안할 수 있습니다.
- 4. Query Reformulation: 사용자가 "books"를 검색하는 경우 검색 엔진은 "best-selling books of 2022" or "science fiction books"과 같이 보다 구체적으로 쿼리를 재구성하도록 제안할 수 있습니다.
- 5. Faceted Search: 사용자가 "laptops"을 검색하는 경우 검색 엔진은 가격 범위, 브랜드, 운영 체제, 화면 크기 및 기능과 같은 검색 결과의 다양한 측면을 제시하여 사용자가 특정 기준에 따라 검색을 세분화할 수 있도록 합니다. 이를 통해 사용자는 자신의 필요와 선호도에 가장 잘 맞는 노트북을 찾을 수 있습니다.
0 ABSTRACT
- Representation learning은 IR 시스템에서 항상 중요한 역할을 해왔다.
- 대부분 검색 모델들은 최근 neural 접근법들을 포함하고, queries와 documets 사이의 유사도를 계산하는데 representations을 사용해서 corpus에서 관련된 정보를 찾는다.
- 최근 모델들은 query representations을 위한 large-scale pre-trained LMs을 사용한다.
- 그러나 이러한 모델들의 일반적인 사용은 여러 intents or facets을 가지고 있을 query에 대해 하나의 representation을 생성한다는 주요 단점이 있다.
- 이 논문의 focus는 각 query에 대해 여러 intent representation을 지원하는 neural models을 고려하여 이 한계를 해결하는 것이다.
- 구체적으로, 우리는 다른 query intents와 그들의 적절한 reprsentations을 의미론적으로 생성하는 NMIR (Neural Multiple Intent Represetation) 모델을 제안한다.
- Bing 검색 로그에서 샘플링한 실제 사용자 쿼리의 대규모 데이터 세트를 사용하여 query facet 생성에 대한 모델을 평가합니다.
- 또한 clarifying question 선택 작업을 사용하여 제안된 모델의 외부 평가를 제공합니다.
- 결과는 NMIR이 경쟁 baselines을 훨씬 능가한다는 것을 보여줍니다.
1 INTRODUCTION
- Neural network 접근법들은 많은 IR 테스크들에서 신뢰할만한 결과들을 보여줘왔다.
- ad hoc retrieval, web search, personal search, conversational search에 국한되지 않고
- neural IR 모델들에서 sota 효율성을 달성하기 위한 떠오르는 방법은 large pre-trained LMs을 활용하는 것이다.
- 즉 BERT, BART는 user inquiries와 documents을 표현한다.
- 이러한 representations은 잘 디자인된 attention 메커니즘들로부터 이점을 얻고 IR, NLP 테스크들에서 중요한 성능향상을 이끔에도 불구하고, 그들은 특정 테스크들에 대해 적용할때 그들만의 단점을 가진다.
- 예를 들어, query represntation learning에서 (핵심 IR 문제인) 현재 일반적인 관행은 query text을 LLM의 입력으로 사용하고 query당 하나의 representation을 생성하는 것이다.
- 그러나 널리 받아들여지는 [60]에서 각 query는 여러 intents와 연관될 수 있다.
- 직관적으로, 각 query에 하나의 representation을 학습하는 것은 모든 잠재적인 query intents의 중심 representation을 학습하는 것과 동일하다.
- 이게 이 논문의 핵심 모티베이션인듯?
- 우리는 중심 representattion이 반드시 개별 query intents 혹은 전체 query 자체를 나타내는 것은 아니라고 주장한다.
- 이것은 single representation 전략이 개별 query intents의 정보 손실을 야기하고 모든 query intents에 대해 의미론적으로 포괄적일 수가 없기 때문이다.
- 결과적으로, query facet generation, query disambiguation, search result diversification, and clarification in web and conversational search engines을 포함한 많은 IR applications을 위해 최적일 수는 없다.
- 이 논문에서, 우리는 query를 위해 여러 광범위하고 널리 분산된 representations을 학습하기 위해 일반적인 프레임워크를 제안함으로써 이러한 이슈를 해결해서 각 representation이 잠재적 intents을 설명한다.
- NMIR로 불리는 우리의 프레임워크는
- 뉴럴 인코더-디코더 구조를 기반으로 고안되었고
- 인코더에의해 생성된 generic query representations이 각각 query intent와 연관된 여러 원격 분산 representations으로 변환하도록 최적화되었다.
- 우리는 프레임워크의 parametric과 non-paramteric 변형을 둘 다 연구한다.
- 전자에서 (parametric) 모델은 query당 representations의 수가 주어진다고 가정하고, 후자는 (non-parametric)은 각 query에 대한 representations의 수가 동적으로 변한다고 가정한다.
- 우리는 다음의 가설들에 기반하여 우리의 프레임워크를 최적화한다.
- query encoder가 여러 query intent representations을 정확하게 학습할 수 있으면, 디코더가 모든 intent descriptions을 정확하게 생성할 수 있어야 한다.
- 이를 바탕으로, NMIR의 training objective는 query intent descriptions (or facets)을 생성의 likelihood을 최대화하는 것이다.
- 프레임워크의 효율성을 향상시키기위해, 우리는 하나의 프로세스가 모델 학습을 담당하고 다른 프로세스가 모델이 광범위하게 분산된 representations을 생성하도록 강제하는 강제 조건을 조정하는 비동기 (asynchronous) 학습을 소개한다.
- NMIR은 섹션 4에서 검토한 광범위한 IR 작업에 응용할 수 있습니다.
- 두 가지 실제 다운스트림 작업에서 모델의 외부 평가를 위해 광범위한 실험을 수행합니다.
- query facet generation and search clarification.
- 3명의 훈련된 annotators를 사용하여 기준선과의 manual pairwise comparison 외에도 재사용 가능한 테스트 collections에 대한 오프라인 평가를 사용하여 경쟁 기준선과 비교하여 상당한 개선을 보여줍니다.
2 RELATED WORK (번역)
- query reprsentations을 정확하게 학습하는 것은 neural information retrieval의 핵심 문제이다.
- query classification, query re-writing, query autocompletion, and query suggestion과 같은 쿼리 수준 작업에 대한 응용 프로그램이 있습니다.
- 또한 DSSM [25], SNRM [79], ColBERT [28] 및 ANCE [72]와 같은 late combination neural ranking models [13, 21]에서 중요한 구성 요소입니다.
- 기존 신경 순위 모델은 주어진 검색 쿼리에 대한 단일 표현을 학습합니다.
- 그러나 검색 쿼리는 종종 여러 의도를 전달합니다.
- 따라서 이러한 모델은 이론적으로 모든 쿼리 의도 표현을 중심 표현으로 요약합니다.
- 우리는 다양한 정보 검색 작업을 효과적으로 처리하기 위해 신경 모델이 단일 쿼리 표현을 넘어야 한다고 믿습니다.
- 더 자세하게, 이 백서는 다양한 의도를 모델링하기 위해 쿼리 입력에 대한 광범위한 표현을 학습하는 새로운 작업을 제안합니다.
- 이 섹션에서는 검색 결과 다양화 및 검색 명확화 외에도 query representation learning, query facet generation 및 query reformulation을 포함한 관련 주제에 대한 선행 연구를 검토합니다.
2.1 Query Representation.
- Query representation은 IR models의 핵심이다.
- 예를 들어, term matching을 기반으로한 vector space 모델들에서, queries들은 쿼리들에서 term 발생 및 빈도, 컬렉션의 일반 통계등을 기반으로 표현된다.
- 몇몇 모델은 주로 예를 들어 query expansion 및 (pseudo-) relevance feedback을 통해 어휘 불일치 문제를 해결하는 데 중점을 두고 이 표현을 개선하는 데 중점을 두었습니다.
- 기계 학습 기반 접근 방식에서 쿼리 표현은 종종 학습됩니다.
- LSI(Latent Semantic Indexing)는 query and document representation 학습을 위한 초기 unsupervised 방법으로, 주어진 텍스트에서 term frequencies의 매트릭스에 대해 SVD(singular value decomposition)를 사용하여 latent 공간에 임베드합니다.
- 동일한 기본 개념이 많은 신경 텍스트 표현 학습 모델에서도 사용됩니다.
- 예를 들어, word2vec [46] 및 GloVe [52]는 대규모 텍스트 컬렉션에서 인접한 단어 또는 그 반대의 단어를 예측하여 unsupervised word representations을 학습합니다.
- information retrieval을 위해 단어 임베딩 모델을 사용하려는 초기 시도는 주로 query expansion과 document expansion 또는 language model smoothing에 중점을 두었습니다.
- Zamani와 Croft[77]는 개별 query terms의 학습된 임베딩 벡터에서 query representations을 이끌어내기위해 위한 첫 번째 모델을 제안했습니다.
- 그들은 query representation을 위한 이론적인 프레임워크를 제안하고 query representation을 위한 maximum likelihood optimization 접근법이 query terms의 embedding vectors의 평균을 이끌어냄을 보여준다. (만약 더 이상 사용할 정보가 없는 경우)
- 후속 작업에서 저자는 각 쿼리에 대한 응답으로 (pseudo) 관련 documents에 나타나는 words을 예측하여 IR-specific word와 query embeddings을 학습할 것을 제안했습니다.
- Diaz[15]는 대안으로 로컬 컨텍스트, 즉 쿼리에 대한 응답으로 가장 많이 검색된 문서에서 word2vec 모델을 훈련할 것을 제안했습니다.
- 나중에 Zhang은 검색 엔진의 로그에서 얻은 클릭된 문서에 대해 Zamani 및 Croft의 관련성 기반 단어 임베딩이 추가로 학습될 수 있음을 보여주고 다양한 암시적 피드백 신호를 사용하여 학습되는 일반적인 쿼리 표현 모델을 제안했습니다.
- 예를 들어 클릭, 멀티태스킹 학습.
- 보다 최근에는 BERT[14]와 같은 대규모 컨텍스트 임베딩 모델이 다양한 IR 작업[43]에 대한 쿼리 및 문서를 나타내는 데 사용됩니다.
- 이러한 모델은 다운스트림 작업이 효과적으로 수행되도록 감독 신호를 사용하여 추가 미세 조정이 필요합니다.
- 이 섹션에서 지적한 모든 쿼리 표현 학습 방법은 각 쿼리에 대해 단일 표현을 생성합니다.
- 이 단일 표현은 단일 벡터 및/또는 쿼리 용어당 단일 벡터일 수 있습니다.
- 따라서 서로 다른 쿼리 의도를 나타내고 생성하는 데 사용할 수 없습니다.
- 반면에 이 논문에서는 쿼리당 여러 표현을 학습하는 모델을 소개합니다.
- 이는 기존 기술을 사용하여 해결할 수 없는 여러 애플리케이션으로 이어질 것입니다(섹션 4 참조).
2.2 Query Facet Extraction and Generation.
- facet extraction and/or generation은 기존 메타데이터 혹은 taxonomies로부터 facets을 추출할 수 있는 디지털 라이브러리 혹은 e-commerce와 같은 어플리케이션에 집중한다.
- 이러한 접근법들은 실제로 large-scale open-domain 설정으로 확장할 수 없다.
- taxonomies 와 external resources을 레버리징하는 것외에도 일부 모델들은 전체 검색 코퍼스의 global 분석을 통해 facets을 추출한다.
- 그러나, web content와 같은 많은 search collections의 이질적인 특성으로인해 이러한 접근 방식은 채택될 수 없다.
- 이러한 이슈를 해결하기 위해, local analysis을 기반으로한 접근법들이 발명되었다.
- 그들은 query에 대한 결과 검색 리스트들에서 top retrieved documents로부터 query facets을 추출한다.
- query에서 바로 query facets을 추출하는게 아니라, 검색 리스트들에서부터 추출하는 건가?
- 특히 Kong과 Allan은 facet extraction을 위한 그래픽 모델 기반 접근 방식을 개발했습니다.
- 그들은 모델의 최적화가 NP-hard 문제임을 보여주었고 따라서 제안된 그래픽 모델에서 결합 확률 계산에 대한 서로 다른 단순화 가정을 기반으로 두 가지 근사치(QFI 및 QFJ라고 함)를 제안했습니다.
NP-hard 문제의 한 가지 예는 여행하는 세일즈맨 문제(TSP)입니다.
TSP는 판매원이 도시 집합을 정확히 한 번 방문하고 총 이동 거리를 최소화하면서 시작 도시로 돌아와야 하는 고전적인 최적화 문제입니다.
최적의 솔루션을 찾으려면 도시의 수에 따라 기하급수적으로 증가하는 모든 가능한 도시 순열을 확인해야 하기 때문에 문제는 NP-hard입니다. 예를 들어 n개의 도시가 있다면 n! (n factorial) 가능한 순열, 큰 n 값에 대해 신속하게 실행 불가능해집니다.
계산상의 어려움에도 불구하고 TSP는 이동 비용이나 시간을 최소화하는 것이 중요한 물류 및 운송 계획과 같은 많은 실용적인 응용 프로그램을 가지고 있습니다. 연구원들은 합리적인 시간 내에 TSP에 대한 솔루션을 근사화하기 위해 다양한 알고리즘과 휴리스틱을 개발했지만 정확한 최적의 솔루션을 찾는 것은 여전히 도전입니다.
- 나중에 Dou는 하이브리드 접근 방식으로 패싯을 추출하는 QDMiner를 도입했습니다.
- 쿼리 패싯 생성 모델은 쿼리 표현을 명시적으로 학습하지 않지만 서로 다른 쿼리 의도를 나타내는 것과 관련이 있습니다.
- 따라서 실험 중 하나에서 쿼리 패싯 생성을 사용하여 모델을 평가했습니다.
- 최첨단 QFI, QFJ 및 QDMiner variations과 비교하고 제안된 솔루션의 효율성을 입증합니다.
2.3 Search Result Diversification, Query Reformulation, and Clarification.
- 검색 쿼리가 항상 사용자의 정보 요구를 명확하게 표현하는 것은 아닙니다.
- IR 과학자들은 이러한 유형의 쿼리를 두 가지 유형으로 분류했습니다.
- ambiguous and underspecified queries
모호한 쿼리는 각각 유효할 수 있는 여러 해석이 가능한 쿼리입니다. 예를 들어 "재규어"를 검색하는 사용자는 동물이나 자동차 브랜드에 대한 정보를 찾고 있을 수 있으며 검색 엔진은 관련 결과를 제공하기 위해 쿼리를 명확하게 해야 합니다.
반면에 지정되지 않은 쿼리는 사용자의 의도를 정확하게 캡처할 만큼 충분히 구체적이지 않은 쿼리입니다. 이는 사용자가 불충분한 정보를 제공하거나 모호하거나 일반적인 용어를 사용하는 경우에 발생할 수 있습니다. 예를 들어 위치나 요리 유형을 지정하지 않고 "최고의 레스토랑"을 검색하는 사용자는 자신의 특정 선호도와 관련이 없는 결과를 받을 수 있습니다.
요약하면 모호한 쿼리와 과소 지정된 쿼리의 주요 차이점은 모호한 쿼리에는 여러 가지 유효한 해석이 있는 반면, 과소 지정된 쿼리는 사용자의 의도를 정확하게 캡처할 만큼 구체적이지 않다는 것입니다. 두 경우 모두 검색 엔진은 사용자에게 적절하고 정확한 검색 결과를 제공하기 위해 query expansion or disambiguation와 같은 다양한 기술을 사용해야 합니다.
- Ambiguous queries에는 둘 이상의 해석이 있는 반면, underspecified queries에는 하나의 해석이 있지만 여러 하위 주제가 있습니다.
- 한국어 예시로 생각해보면 "원피스"라고 검색하는 것은 ambiguous 쿼리에 해당한다. 왜냐하면 원피스 옷을 말하는 것일수도 있고 만화 원피스를 말하는 것일 수도 있다.
- 그런데, "한국 맛집"으로 검색하는 것은 underspecified 쿼리에 해당한다. 왜냐하면 한국 어떤 맛집을 의미하는지 너무 많은 범주가 있기 때문이다.
- Search result diversification(검색 결과 다양성)과 intent clarification(의도 명확화)는 ambiguous and underspecified queries을 해결하기 위한 두 가지 주요 접근법들이다.
- Search result diversification은 가능한 많은 query intents을 커버하기위해 결과 리스트들을 재조정한다.
- 그래서, 많은 query intents은 하나의 결과 리스트에의해 설명될 수 있다.
- 이를 위해 대부분의 기존 방법은 초기 검색을 수행한 다음 몇 가지 기준에 따라 검색된 상위 𝑘 세트에서 일부 문서를 선택합니다.
- 그냥 다양한 의도들에 해당하는 검색 결과들을 보여줘서 커버친다?
- 이러한 방법은 "implicit" 접근 방식과 "explicit" 접근 방식의 두 가지 그룹으로 분류할 수 있습니다.
- Implicit 접근 방식은 facets을 명시적으로 모델링하지 않고 이전에 선택된 것과는 다른 문서를 선택합니다.
- Maximal marginal relevance(MMR)은 implicit diversification를 위한 간단하면서도 효과적인 greedy 알고리즘입니다.
- 이전 결과와 다른 의도에 해당하는 결과를 보여줘서 다양한 결과를 보여주게 끔?
- 반면 explicit 접근 방식은 우리 작업에 더 가까운 쿼리 subtopics를 모델링하려고 시도합니다.
- 예를 들어, Agrawal은 taxonomy을 사용했고 몇몇 다른 연구자들은 query sub-topics를 모델링하기 위해 query reformulations를 사용했습니다.
- 또는 Dang은 anchor texts를 사용하여 쿼리 재구성을 생성했고 Carterette와 Chandar는 relevance과 topic models을 채택하여 명시적인 다양화를 위해 검색된 문서에 집중했습니다.
- 다양화의 대안으로 검색 엔진은 명확한 질문을 함으로써 사용자의 정보 요구를 명확히 할 수 있습니다.
- taxonomy 혹은 query reformulations을 통해 query sub-topics을 모델링한다.
- 즉 쿼리를 재구성, 하위 토픽 분류등을 통해 다양한 의도에 해당하는 결과를 보여준다?
- 이는 기존의 "ten blue link" 인터페이스를 사용하는 웹 검색과 검색 결과 다변화가 비현실적인 제한된 대역폭 인터페이스를 사용하는 대화형 검색 모두에 적용됩니다.
- 여러 query intent representations을 학습하는 것은 검색 결과 다양화와 의도 명확화 모두에 적용될 수 있습니다.
- 실험에서 clarifying question selection task을 사용하여 모델을 외부적으로 평가합니다.
3 METHODOLOGY
- 각 검색 쿼리에 대해 광범위하게 여러 distributed representations을 생성할 수 있는 query representation 학습 모델을 훈련하는 것은 아직 연구되지 않았습니다.
- 이는 특히 쿼리에 따라 표현의 수가 달라지는 경우 매우 어려운 작업입니다.
- 이 섹션에서는, 우리는 수십 년 동안 연구된 cluster-based IR models을 기반으로하는 optimization solution을 통해 이 작업에 대한 general framework를 제안합니다.
- 이전 작업과 달리 NMIR은 asynchronous(비동기) 훈련 중에 클러스터링을 활용하여 멀리 떨어져 있고 광범위하게 distributed representations을 학습합니다.
- NMIR 프레임워크는 다양한 다운스트림 IR 애플리케이션에 추가로 사용될 수 있습니다.
- 그 중 일부는 섹션 4에서 검토합니다.
- 각 다운스트림 작업에 대해 task-based fine-tuning을 채택할 수 있습니다.
3.1 Task Description and Problem Formulation
- 이 작업은 각 검색 쿼리에 대해 여러 개의 광범위한 distributed representations을 학습하는 것입니다.
- 쿼리에 대한 응답으로 검색 결과 목록에서 가장 많이 검색된 문서를 증거 소스로 사용하여 representation learning을 위한 쿼리의 다양한 의도를 찾습니다.
- 쿼리를 검색해서 나온 문서들을 기반으로, representation learning을 위한 다양한 intent을 찾는다?
- 여기서 문서란 사람들이 많이 누를만한 상위 검색 문서들을 말하는 듯
- 모델 학습을 위해 각 쿼리 의도에 대한 textual description을 사용할 수 있다고 가정합니다.
- 3.3절에서는 이러한 description을 얻기 위한 잠재적인 솔루션에 대해 설명합니다.
- 작업을 공식화하기 전에 notation을 소개합니다.
- 𝑄 = {𝑞1, 𝑞2, ... , 𝑞𝑛}를 𝑛개의 쿼리가 있는 학습 쿼리 집합으로, 𝐷𝑖 = {𝑑𝑖1,𝑑𝑖2,...,𝑑𝑖𝑚}를 검색 모델𝑀을 사용하여 쿼리 𝑞𝑖에 대한 응답으로 검색된 상위 𝑚개의 문서라고 합니다.
- 또한 𝐹𝑖 = {𝑓𝑖1, 𝑓𝑖2, ..., 𝑓𝑖𝑘𝑖 }는 쿼리𝑞𝑖와 관련된 모든 textual intent descriptions의 집합을 나타내며, 𝑘𝑖는 쿼리 인텐트 수이며 쿼리에 따라 달라질 수 있습니다.
- 즉 쿼리 q가 있고, 이에대한 검색된 문서 d들이 있고, q에 대한 textual intent descriptions f들이 있다.
- task는 쿼리 𝑞𝑖에 대해 𝑘𝑖 개의 representations 𝑅𝑖 = {𝑅𝑖1, 𝑅𝑖2, ..., 𝑅𝑖𝑘𝑖 }를 학습하는 것이며, 여기서 𝑅𝑖𝑗은 쿼리에 대해 학습된 𝑗 번째 표현입니다.
- 쿼리(qi): 캠핑
- 검색된 문서(D): {캠핑문서1, 캠핑문서2, ..., 캠핑문서m} (검색된 상위문서 m개)
- 의도: 여행, 물품, ... (문서 D을 보여주는 의도 ki개 != m) (의도에 해당하는 데이터가 따로 있지는 않음)
- 의도 설명(fi1, fi2, ..., fiki): 여행에 관련된 문서, 물품에 관련된 문서이기 때문, ... (ki개) (의도대신 의도설명이란 데이터에 접근할 수 있다고 가정)
- Representation(Ri1, Ri2, ..., Riki): 각 fij에 대해 qi로부터 학습해야할 표현 (ki개)
3.2 NMIR Framework: A High-Level Overview
- 이 작업에 대한 한 가지 간단한 해결책은 쿼리 𝑞𝑖(및 검색된 상위 문서)를 입력으로 활용하고 가장 가능성이 높은 상위 𝑘𝑖 예측을 (=빔서치) 통해 쿼리에 대한 여러 쿼리 의도 설명을 생성하는 인코더-디코더 아키텍처를 사용하는 것입니다.
- 즉 입력이 q이고 출력이 intent description을 생성하도록 학습
- intent description이 여러개 이니까, 이를 빔서치로 모델이 여러개 생성하도록 해서 여러 description을 생성하도록 학습한다는 의미인듯
- 그러나 여러 NLP 작업의 이전 연구[67, 70]에 따르면 이러한 생성은 종종 동의어이거나 동일한 개념을 참조하는 것으로 나타났으며, 이는 우리 작업의 목표와 대조적입니다:
- 쿼리 의도와 연관된 광범위한 distributed representations을 학습하는 것입니다.
- 이 솔루션은 서로 다르지만 의미적으로 유사한 출력을 생성하며, 이는 하나의 쿼리 의도와만 관련이 있습니다.
- 따라서 이 접근 방식은 목적에 부합하지 않습니다.
- 위 방법은 해보면, 빔서치로 다양한 생성이 안되는 듯? 의미적으로 유사한 출력이 생성된다는거보니
- 또 다른 간단한 해결책은 기계 번역과 유사하게 작업을 시퀀스 간 문제로 보고 모든 쿼리 의도 설명을 서로 연결하여(그리고 특수 토큰을 사용하여 구분하여) 생성하는 것입니다.
- intetn description을 그냥 스페셜 토큰으로 연결하여 하나의 string으로 보고 모델을 학습시킨다는 듯?
- 이 접근 방식과 관련하여 우려되는 점은 모델의 마지막 계층에서 서로 다른 의도 표현을 구분할 수 없다는 것입니다.
- 또한 기존의 대부분의 효과적인 텍스트 인코딩 모델은 검색된 상위 문서들의 연결과 같이 긴 토큰 시퀀스를 표현할 수 없습니다.
- NMIR 프레임워크는 이러한 문제를 해결합니다.
- 𝜙(-)와 𝜓(-)는 각각 텍스트 인코더와 디코더 쌍을 나타냅니다.
- 훈련 세트의 모든 쿼리 𝑞𝑖에 대해 NMIR은 가장 많이 검색된 문서 𝐷𝑖가 쿼리와 관련이 있으며 다른 쿼리 의도와 관련이 있을 수 있다고 가정합니다.
- NMIR은 document-intent matching algorithm 𝛾을 사용하여 학습된 각 document representation을 query intent descriptions 𝑓𝑖𝑗 ∈ 𝐹𝑖 중 하나에 할당합니다:
- 여기서 는 document sets의 집합입니다.
- 각 𝐶∗𝑖𝑗은 𝐷𝑖에서 𝑓𝑖𝑗에 𝛾에 의해 할당된 문서 집합입니다.
- 즉 각 intent description에 해당하는 문서를 매핑한 것이 C*i가 된다.
- 문서가 m개고 intent description은 ki개여서 위 식처럼 C*i가 표현된는 것이다.
- 그런 다음 NMIR은 인코딩된 general query representation을 query intent encoder 𝜁 를 통해 인텐트 표현으로 변환합니다.
- 좀 더 자세히 설명하면, 𝑗 번째 쿼리 의도에 대한 표현은 𝜁(𝑞𝑖,𝐶∗𝑖𝑗;𝜙)를 사용하여 얻습니다.
- 구성 요소 𝜙, 𝜓, 𝛾 및 𝜁의 구현 세부 사항은 섹션 3.3에 나와 있습니다.
- 미니 배치 𝑏에 대한 NMIR의 훈련은 $L(b) = \frac{1} {|b|} \sum_{q_i \in b} L(q_i)$의 gradient descent based minimization에 기반하며, 여기서 𝐿(𝑞𝑖)는 다음과 같이 정의됩니다:
- 여기서 𝜙(-)와 𝜓(-)는 각각 텍스트 인코더와 디코더이고 𝜁은 query intent encoder이다.
- 순서
- query가 입력일때, document가 검색됨
- 검색된 documents di1, di2, ... , dim을 텍스트 인코더로 인코딩 시킴
- 각 query intent description fi1, ..., fiki을 텍스트 인코더로 인코딤 시킴
- di을 먼저 클러스터링한다. 클러스터링 개수는 학습때는 fi개로 고정하고 진행하는것 같음 (테스트때는 5개로 하나?)
- 그리고 이를 fi와 𝛾로 비교해서, 각 fij 할당된 documents들을 할당하고, 이것이 집합이 C*i가 된다. = query intent descriptions에 해당하는 documents 셋
- 학습때는 이렇게 fi와 C*i을 매칭해서 학습시키면되는데
- 테스트때는 적절한개수(5개?)로 클러스터링하고, 클러스터링된 문서에 대해 각 facet을 생성하는 식일듯
- 혹은 non-parametric K-means을 사용한다고함
- q*ij = "qi fi1 fi2 fij-1 <mask> ... <mask>"인 query string의 concatenation이다. ki개의 intent description이있는데, 앞의 j-1개 fi는 붙고, 나머지는 <mask>로 붙는다.
- 쿼리 q에는 ki개의 query intent가 있다.
- 예) 쿼리는 자전거이고, 이때 의도설명은 구매, 후기, 정보검색, 색깔이 있다고 하자. (ki=4)
- 3번째(j=3) 의도인 정보검색으로 학습시킬때, q*3="자전거 구매 후기 <mask>" 이렇게 q*ij가 된다.
- 이러한 각 문자열 사이에는 특별한 구분 토큰이 있습니다.
- q*ij와 j번째 intent에 맞는 document Cij을 query intent encoder을 통해 인코딩시킨다. 이것이 j번째 query intent에 대한 representation이 된다.
- 인코딩된것을 텍스트 decoder 𝜓을 통해 query intent description을 생성한다.
- 생성된 description과 fij을 비교하여 loss을 계산하고 학습시킨다.
- 따라서 𝐿(𝑞𝑖)는 기본적으로 연관된 cluster 𝐶∗𝑖𝑗와 encoded query text 및 past 𝑗-1 의도 설명이 주어질 때 각 텍스트 의도 설명을 생성하는 데 따른 손실을 계산합니다.
- 이렇게 하면 모델이 이전 의도 표현을 생성하는 것을 피하고 광범위하게 분포된 표현을 학습할 수 있습니다.
- 즉 이전에 나왔던 의도들을 참고하여, 다음의 의도가 무엇인지를 생성하게끔 한다는 것!
- 위의 손실 함수에서 LCE는 시퀀스 간 모델에서 차용한 cross-entropy loss입니다[65]:
- Inference.
- 추론 시 NMIR을 사용하는 방식은 훈련 시 사용하는 방식과 부분적으로 다릅니다. 정확히 말하자면, 𝑞 ∗ 𝑖𝑗은 다르게 구성됩니다.
- 학습 시에는 다음 쿼리를 생성하기 위해 쿼리와 이전 의도 설명을 연결하여 구성됩니다.
- 추론 시에는 의도 설명에 액세스할 수 없으므로 모델의 출력을 기반으로 𝑞 ∗ 𝑖𝑗를 구성해야 합니다.
- 즉, 정답을 모르니까 출력 기반으로 가야한다.
- 따라서 쿼리 𝑞𝑖 에 대해 먼저 모델에 "𝑞𝑖 ..."를 입력하고(마스크 토큰의 수는 |C∗ 𝑖 |와 같음), 디코더의 출력에 빔 검색을 적용하여 첫 번째 의도 설명 𝑓′𝑖1 을 얻습니다.
- 그런 다음 모델의 출력을 사용하여 다음 단계 "𝑞𝑖 𝑓′𝑖1 ..."에 대한 입력을 반복적으로 생성하고 이 과정을 |C∗ 𝑖|회 반복합니다.
- 앞서 언급했듯이, 모델 학습과 마찬가지로 이전 출력을 포함하는 이유는 반복적인 의도 설명을 생성하지 않기 위해서입니다.
3.3 Model Implementation and Training
- 이 하위 섹션에서는 각 구성 요소에 대한 프레임워크의 세부 구현에 대해 설명합니다.
- 파이토치 라이트닝 플랫폼을 사용하여 모델을 구현했습니다.
- The encoding and decoding components 𝜙 and 𝜓.
- (a) NMIR의 네트워크 아키텍처. 동일한 배경색은 매개변수 공유를 나타냅니다. 흰색 배경은 구성 요소에 학습 가능한 파라미터가 없음을 의미합니다. 인코더 및 디코더 파라미터(𝜙 및𝜓)는 𝑁 트랜스포머 레이어로 구성된 BART 사전 학습된 파라미터[39]로 초기화되고 미세 조정됩니다. (b) NMIR 프레임워크의 비동기 훈련. 이 두 단계(점선 위와 아래)는 서로 다른 두 개의 GPU에서 실행되며, 모델 파라미터는 경사 하강 기반 옵티마이저를 사용하여 단계 중 하나에서만 업데이트됩니다. 𝜙𝑠-1은 파라미터가 고정되어 있고 𝑠-1 단계의 모델 스냅샷에서 얻은 인코더를 나타냅니다.
- 그림 1a에 표시된 것처럼, 각각 𝜙와 𝜓를 구현하기 위해 트랜스포머 인코더 및 디코더 아키텍처를 사용합니다.
- 사전 훈련된 BART 모델[39]로 파라미터를 초기화합니다.
- BART는 시퀀스 간 모델을 사전 학습하기 위한 노이즈 제거 자동 인코더입니다.
- 표준 트랜스포머 기반 인코더-디코더 아키텍처를 사용하며 입력 텍스트에 노이즈를 추가하고 재구성하는 방식으로 사전 학습되었습니다.
- 입력 텍스트가 원래 형식에서 정보가 남아있지 않을 정도로 손상된 극단적인 경우, BART는 언어 모델과 동일합니다.
- 우리는 HuggingFace의 Transformer 라이브러리[71]에서 제공하는 BART의 구현을 사용합니다.
- NMIR에서 디코더의 cross attention는 각 query intent에 대한 intent encoder 𝜁의 출력입니다(그림 1a 참조).
- 즉 𝜙에는 각 document와 query가 입력으로 들어가 임베딩된다.
- 최종 출력은 CLS 토큰을 쓰는건가?
- 그리고 document embedding은 intent description과 𝛾로 비교하여 의도와 연관된 문서들만 찾는다 = C*i
- 해당 documents와 query을 guide transformer을 통해 서로 attention한다.
- 이를 통해 query representation은 intent 정보를 담은 query intent representation이 된다고 한다. = 인코더 출력
- 디코더에서는 qi, fi1, fi2,...,fik-1 이 concat된 것이 입력이고, 다음번의 intent desciprtion인 fik을 생성하도록 한다.
- The intent encoding component 𝜁 .
- 그림 1a와 같이 인텐트 인코딩 컴포넌트 𝜁(𝑞∗𝑖𝑗,𝐶∗𝑖𝑗 ;𝜙)는 최근 개발된 Hashemi[23]의 Guided Transformer 모델의 𝑁 ′ 레이어를 사용하여 구현됩니다.
- Guided 트랜스포머는 일부 external information의 guidance 를 통해 입력 표현에 영향을 미치는 데 사용됩니다.
- 우리의 경우 𝜙 (𝑞 ∗ 𝑖𝑗)를 입력 표현으로, 𝜙 (𝑑) :∀𝑑 ∈𝐶 ∗ 𝑖𝑗을 외부 정보로 사용합니다.
- 실제로 Guided Transformer는 입력 토큰(쿼리)에 대한 self-attention, 각 외부 리소스(𝐶 ∗ 𝑖𝑗의 각 문서)에 대한 self-attention, 그리고 문서 표현에서 쿼리 표현으로의 cross-attention를 사용합니다.
- 이 cross-attention 메커니즘을 통해 모델은 generic query representation을 query intent representation으로 변환할 수 있습니다.
- The document-intent matching component 𝛾
- multi-sense word embedding 작업에서 영감을 얻어, 인코딩된 표현을 기반으로 document-intent matching을 위해 학습된 표현을 클러스터링하고 각 클러스터를 intent description에 할당하는 알고리즘을 개발했습니다.
- 좀 더 자세히 설명하자면, NMIR은 클러스터링 알고리즘을 사용하여 검색된 모든 상위 문서를 인코딩하고 𝑘𝑖개의 클러스터를 생성합니다. (𝑘𝑖=intent description 개수)
- 따라서
- 즉 𝛾가 하는 것은, document을 intent description 개수 ki에 해당하는 클러스터링을 하는 것과 유사하다?
- 여기서 C𝑖 = {𝐶𝑖1,𝐶𝑖2, ... ,𝐶𝑖𝑘𝑖 }는 클러스터 집합을 나타내며 각 𝐶𝑖𝑗는 쿼리 𝑞𝑖 와 연관된 𝑗 번째 클러스터에 있는 모든 문서를 포함합니다.
- 𝑀𝑖 = {𝜇𝑖1,𝜇𝑖2,...,𝜇𝑖𝑘𝑖 }는 𝜇𝑖𝑗 = centroid(𝐶𝑖𝑗)가 되는 모든 클러스터 중심값의 집합입니다.
- 저희 구현에서는 단순성과 효율성 때문에 이 단계의 클러스터링에 K-Means를 사용합니다.
- K-Means는 여러 IR 애플리케이션에서 성공적으로 사용되었습니다.
- K-Means는 클러스터 수를 입력으로 요구합니다.
- 훈련 시점의 𝑞𝑖에 대한 클러스터 수는 의도 설명의 수(즉, 𝑘𝑖 )로 주어집니다.
- 그러나 이 값은 추론 시점에서는 알 수 없습니다.
- 실험에서는 두 가지 경우를 고려합니다.
- 첫 번째 경우, 테스트 시점의 클러스터 수가 모든 쿼리에 대해 조정된 하이퍼 파라미터 𝑘 ∗와 같다고 가정합니다.
- 두 번째 경우에는 K-평균 알고리즘을 non-parametric 버전의 K-평균으로 대체합니다.
- 동적 클러스터링 수를 설정하는 하는 방법인가보군
- 이 알고리즘은 기본적으로 최소 문서 유사성 임계값을 기반으로 하나의 클러스터를 생성하는 것으로 시작합니다.
- 첫 번째 클러스터가 생성되면 아직 클러스터에 할당되지 않은 나머지 문서에 대해 동일한 프로세스가 반복됩니다.
- non-parametric K-Means에 대한 자세한 내용은 [45]를 참조하시기 바랍니다.
- component 𝛾는 클러스터 중심과 학습 데이터의 쿼리 의도 간에 일대일 할당이 필요합니다.
- 그렇지 않으면 모든 클러스터가 가장 지배적인 단일 쿼리 의도에 할당될 수 있으므로 모델이 멀리 떨어진 쿼리 표현을 생성하는 방법을 학습하지 못하기 때문에 일대일 할당이어야 합니다.
- 즉 document을 ki개로 k-means 클러스터링하고, ki개의 중심을 각각의 의도와 일대일 대응을 시킨다.
- 일대일 대응을 시킨 쌍이, guide transformer의 입력으로 들어가게 됨으로 대응도 시켜야함
- 따라서 NMIR은 intent identification function I라고 하는 다음과 같은 injective surjective function를 사용합니다:
- 여기서 perm(-)은 주어진 집합의 모든 순열을 반환하고 각 𝑀′= [𝜇 ′ 1 ,𝜇′ 2 ,...,𝜇′ 𝑘𝑖 ]는 𝑀𝑖 에서 클러스터 중심점의 순열을 나타냅니다 .
- 함수 sim(-,-)은 유사도 함수를 나타냅니다.
- inner product을 사용하여 인텐트 표현과 클러스터 중심 사이의 유사도를 계산합니다.
- 따라서 𝑀∗ 𝑖 = [𝜇 ∗ 𝑖1 ,𝜇∗ 𝑖2 ,...,𝜇∗ 𝑖𝑘𝑖 ]를 I (𝑀𝑖 ,𝐹𝑖)의 출력으로, C ∗ 𝑖 = {𝐶 ∗ 𝑖1 ,𝐶∗ 𝑖2 ,...,𝐶∗ 𝑖𝑘𝑖 }를 관련 클러스터라고 합시다.
- 컴포넌트 𝛾 는 C ∗ 𝑖 를 반환합니다.
- 𝛾는 미분할 수 없으며 경사 하강 기반 최적화를 위한 네트워크의 일부가 될 수 없다는 점에 유의하세요.
- 아래 제시된 비동기 훈련은 최적화 프로세스에서 𝛾를 제거하고 비동기 프로세스로 이동하여 이 문제를 해결합니다(그림 1b 참조).
- 또 다른 중요한 점은 클러스터의 순서는 중요하지 않기 때문에 추론 시 함수 I를 호출할 필요가 없지만, 훈련에서는 손실 함수를 계산하는 데 도움이 되기 때문에 중요하다는 것입니다.
- Asynchronous training.
- 널리 알려진 바와 같이, 대규모 신경망의 방대한 병렬 연산으로 인해 GPU를 사용하면 딥 러닝 모델의 학습 속도를 크게 향상시킬 수 있습니다.
- 하지만 저희는 모델을 훈련하는 동안, GPU에서 실행되는 K-평균 알고리즘을 배포한 후에도 문서 표현의 클러스터링이 효율성 병목 현상이 발생하는 것을 관찰했습니다.
- 이 문제를 해결하기 위해 그림 1b에 표시된 비동기 문서 인코딩 및 클러스터링 접근 방식을 고려했습니다.
- 이 훈련 접근 방식에서는 두 개의 GPU를 사용합니다: 각 훈련 단계가 시작될 때 인코더 매개변수(즉, 𝜙)의 스냅샷을 저장하고 모든 훈련 쿼리에 대한 응답으로 검색된 모든 문서에 대한 문서 표현을 계산합니다.
- 그런 다음 획득한 클러스터 중심(𝑀𝑖s)을 사용하여 두 번째 GPU에서 모델을 학습합니다.
- 모델이 학습되는 동안 첫 번째 GPU는 다음 단계를 위해 문서 표현과 클러스터 중심을 계산합니다.
- 사실 이 접근 방식은 각 훈련 단계의 클러스터 중심이 이전 두 단계의 모델 파라미터에서 얻어지기 때문에 동기식 훈련만큼 효과적이지 않을 수 있습니다(즉, 그림 1b에서 볼 수 있듯이 𝑠-1 단계의 모델 파라미터가 𝑠+1 단계의 클러스터를 생성합니다).
- 그러나 효율성 향상은 비동기 학습(asynchronous training)을 고려할 충분한 인센티브를 제공합니다.
- 대규모 데이터 세트에서 동기식 모델을 훈련하는 것은 비현실적이기 때문에 동기식 및 비동기식 훈련 전략 간의 효율성 비교는 없습니다.
- 클러스터링하는 것이 모델 학습에서 상당히 오래걸리는 부분이라고 한다
- 그래서 다른 gpu로 여기서는 이전에 학습된 결과로 document representation을 미리 계산하고 cluster centroids 까지 구해놓는다.
- 즉 s+1 단계 학습할때, 원래 s까지 학습된 모델 파라미터로 document representation을 계산해야하는데, s-1의 모델 파라미터로 s단계 학습될때 미리 계산해두고 cluster centroids 까지 K-means로 계산해두는 것이다.
- 따라서 비동기식 학습인데, 이렇게하면 학습 속도가 빨라진다.
- Training data and setup.
- NMIR을 훈련할 때 또 다른 과제는 훈련 데이터, 특히 ground truth intent descriptions과 관련이 있습니다.
- 쿼리 재구성 데이터나 앵커 텍스트 등을 사용하여 모델의 약한 감독 학습을 위한 학습 데이터를 자동으로 생성하는 방법에는 여러 가지가 있습니다.
- 본 실험에서는 최근 Zamani에서 출시한 MIMIC-Click 데이터 세트를 기반으로 한 weak supervision 솔루션을 따릅니다.
- https://github.com/microsoft/MIMICS
- 저자들은 Bing의 검색 쿼리 로그를 마이닝하고 예측하여 쿼리 의도에 대한 설명을 추출하고 생성했습니다.
- 보다 자세하게는 쿼리의 다양한 의도를 드러내는 query reformulations을 찾는 것을 목표로 쿼리 재구성 데이터를 기반으로 데이터가 생성됩니다.
- 사용자는 대부분 검색 세션에서 원래 쿼리에 하나 이상의 용어를 추가하여 의도를 명확히 하기 때문에(종종 query specialization라고도 함), 쿼리 재구성 트리플 세트(𝑞,𝑞𝑞′ ,𝑐)(또는 (𝑞,𝑞′𝑞,𝑐))를 추출하여 쿼리의 의도를 예측할 수 있습니다, 이는 모든 사용자에 대한 전체 쿼리 로그 데이터를 집계할 때 𝑐의 빈도로 동일한 검색 세션(즉, 즉시 연속된 쿼리)에서 쿼리 𝑞 뒤에 쿼리 𝑞𝑞′(또는 𝑞 ′𝑞)가 뒤따르는 것을 나타냅니다.
- 𝑞𝑞′는 𝑞와 𝑞 ′의 연결이며, 여기서 |𝑞 ′ | >0입니다.
- 추측하기엔, 사용자가 q을 검색하고 q'을 검색하게 되면 q에 대한 의도를 qq'로부터 알아낼 수 있다는 것 같다.
- 상식적으로 캠핑 검색후 캠핑용품을 검색했다면, 용품을 찾는 의도가 캠핑에 있다는 의미일 듯
- mined query reformulations은 동일한 의도를 나타낼 수 있으므로, 다양한 쿼리 의도 설명을 식별하기 위해 다양화 기반 접근 방식이 사용됩니다.
- 데이터는 40만 개 이상의 고유 검색 쿼리와 쿼리당 2~5개의 intent descriptions으로 구성됩니다.
- 자세히 설명하면 MIMICS-Click 쿼리의 80%는 학습에 사용하고 나머지는 유효성 검사에 사용합니다.
- 검증 세트는 초매개변수 조정 및 조기 중지에 사용됩니다.
- 가장 많이 검색된 문서(즉, 𝐷𝑖s)의 경우 MIMICS 데이터 세트 작성자가 Bing의 공개 웹 검색 API에서 가져온 SERP 정보를 사용했습니다.
- http://ciir.cs.umass.edu/downloads/mimics-serp/MIMICS-BingAPI-results.zip
- 실험에서 검색된 문서의 정확한 텍스트 표현으로 문서 스니펫을 사용합니다.
- 우리는 배치 크기가 8인 Adam 옵티마이저를 사용하여 모델을 훈련했습니다.
- GPU 메모리 제약으로 인해 작은 배치 크기가 선택되었습니다.
- 검증 세트의 손실 값을 기반으로 조기 중지를 사용했습니다.
- Guided Transformer 레이어의 수는 3개로 설정되었습니다.
- 학습률은 [1e-6,5e-5] 간격의 검증 손실을 기반으로 선택되었습니다.
- 표 3에서 NMIR에 의해 몇 가지 예제 쿼리에 대해 생성된 패싯을 보고합니다.
4 POTENTIAL APPLICATIONS OF NMIR
- NMIR은 광범위한 IR 작업에서 여러 응용 프로그램을 포함하는 일반 프레임워크입니다.
- 예를 들어 NMIR은 abstractive query intent(또는 패싯) 생성에 간단히 사용할 수 있습니다.
- 학습된 표현의 품질을 입증하기 위해 실험에서 이 작업을 사용합니다.
- NMIR의 또 다른 잠재적인 응용 프로그램은 검색 결과 다양화입니다. 여러 쿼리 의도 표현이 결과 목록을 다양화하는 데 도움이 될 수 있기 때문입니다.
- 사용자가 주제의 다양한 측면을 탐색하기 위해 검색 쿼리의 다양한 표현을 사용할 수 있는 탐색적 검색 작업에서 NMIR의 명확한 적용을 상상할 수 있습니다.
- 대화식 검색에서 명확한 질문을 하는 것은 중요하고 도전적인 작업으로 인식되어 왔습니다.
- 실험에서도 사용되는 대화식 검색 설정에서 명확한 질문을 생성하고 선택하는 데 여러 query representations을 사용할 수 있습니다.
- query representation 및 응용 프로그램 외에도 제안된 솔루션은 잠재적으로 document representation과 관련된 다양한 작업에 채택될 수 있습니다.
- 예를 들어, scope hypothesis에 따르면 긴 문서는 종종 여러 다른 주제를 다룹니다.
- 따라서 제안된 프레임워크를 사용하여 각 문서에 대한 다중 representations 학습을 추가로 조사할 수 있습니다.
- 이것은 문서 클러스터링 및 분류에 적용됩니다.
- 우리는 모델이 이론적으로 문서에 가장 가까운 쿼리 의도를 정확하게 찾을 수 있기 때문에 여러 쿼리와 문서 표현을 함께 학습하면 잠재적으로 문서 순위도 향상될 수 있다고 믿습니다.
- 텍스트 표현을 넘어 제안된 프레임워크의 적용을 상상할 수도 있습니다.
- 예를 들어 collaborative recommender systems에서 모델은 각 user와 user-item interaction signals로부터의 item에 대한 single representation을 학습합니다.
- 그러나 사용자는 여러 다른 관심사를 가질 수 있으며 단일 사용자 표현 벡터는 정보 손실로 이어질 수 있습니다.
- 제안된 프레임워크는 서로 다른 사용자 관심사에 따라 가변적인 수의 사용자 표현을 학습하여 추천 시스템으로 잠재적으로 확장될 수 있습니다.
- 이는 추천 정밀도 향상으로 이어질 것입니다.
- 각 recommendation을 설명하는 데 사용할 수도 있습니다.
- 이러한 기술을 통해 사용자는 next recommendation에 대해 선호하는 프로필 표현을 선택하거나 사용자의 상황에 따라 자동으로 선택할 수 있습니다.
5 EXPERIMENTS
- query facet generation and clarification selection이라는 두 가지 다른 IR 작업에서 NMIR을 외부적으로 평가합니다.
- search clarification[2, 80], search result diversification[4, 5] 및 facet generation[17, 32]에 대한 이전 작업에 이어 우리는 다면적 쿼리에 중점을 둡니다.
5.1 Query Facet Generation
- NMIR 프레임워크를 평가하기 위한 첫 번째 실험 세트에서는 query facet generation에 중점을 둡니다.
- 작업은 주어진 쿼리에 대한 여러 textual facet descriptions을 생성하는 것으로 정의됩니다.
5.1.1 Evaluation Data.
- 이 작업을 평가하기 위해 MIMICS-Manual 데이터 세트를 사용합니다.
- 이 공개 데이터 세트는 Bing 쿼리 로그에서 샘플링된 2464개의 고유한 웹 검색 쿼리로 구성됩니다.
- 데이터 세트에는 각 쿼리에 대해 2~5개의 패싯이 포함됩니다.
- 세 명의 숙련된 주석자가 각 패싯 세트의 품질을 수동으로 평가했습니다.
- 품질 레이블은 Bad, Fair 및 Good입니다.
- 실험에서 우리는 Bad 패싯 세트를 제외하고 Fair 또는 Good 레이블이 있는 패싯 세트를 ground truth로 간주했습니다.
- Zamani에 따르면 Fair 레이블은 여전히 상업용 웹 검색 엔진에 표시되는 품질 기준을 충족합니다.
- 우리는 이것이 우리 모델의 성능을 평가하기 위한 고품질 테스트 모음임을 발견했지만, 여전히 더 높은 신뢰도로 기준선과 비교하여 개선 사항을 강조하기 위해 수동 주석을 사용하여 작은 후속 실험을 제시합니다.
- 학습 쿼리와 테스트 쿼리 간의 교차가 비어 있는지 확인했습니다.
- 교육과 유사하게 테스트 세트의 각 쿼리에 대해 가장 많이 검색된 문서는 Bing의 Web Search API에서 가져왔습니다.
- 자세한 내용은 섹션 3.3의 훈련 데이터 세부 정보 및 훈련 설정을 참조하십시오.
5.1.2 Evaluation Metrics.
- 쿼리 패싯 생성 모델을 평가하기 위해 네 가지 평가 메트릭 세트를 채택합니다.
- 집합대 집합을 비교하는 것
- 생성되야할 쿼리 패싯들 vs 생성된 쿼리 패싯들
- (1) Term overlap metrics: 이 메트릭은 이전에 쿼리 패싯 추출 모델을 평가하는 데 사용되었습니다.
- They include Term Precision(TP), Term Recall(TR), and Term F1-measure(TF).
- 이러한 메트릭은 기본적으로 ground truth 데이터에 나타난 terms와 관련하여 모델에서 생성된 terms 집합에 대한 precision, recall, and F1-measure을 계산합니다.
- For more information about these metrics, refer to [30].
- 여기서 T*은 GT에 해당하는 모든 facet terms을 말함
- 즉 모든 facet term들을 하나의 셋으로 보고 precision, recall을 계산하는 것인듯
- (2) Exact match metrics: term overlap과 유사하게 이 지표는 facet level에서 정확한 텍스트 일치에도 초점을 맞춥니다.
- 즉, 이러한 메트릭은 ground truth에 나타난 정확한 facet description을 생성하는 precision, recall, and F1-measure을 계산합니다.
- (1)은 정확히 같지 않더라도, term 단위의 precision등을 계산하는거 같은데, (2)는 정확히 같은 텍스트(facet description)만을 간주하는 거 같음
- (3) Set BLEU scores: BLEU는 기계 번역과 같은 텍스트 생성 작업에 널리 채택되는 메트릭입니다.
- 그러나 single candidate text와 a set of references간에 정의됩니다.
- 우리의 작업에서는 두 세트의 텍스트를 비교하는 것을 처리합니다.
- 한 세트는 모델(𝑅)에 의해 생성된 다른 패싯 설명이고 다른 하나는 ground truth test set(𝐺)의 다른 패싯 설명입니다.
- Set BLEU을 계산하기 위해 먼저 R의 모든 permutations을 생성하고나서 R*을 선택한다.
- 𝑅∗ =argmax 𝑅′∈perm(𝑅) 1/𝑀 ∑︁^𝑀_𝑖=1 BLEU-4(𝑅′𝑖 ,𝐺𝑖)
- R*는 즉, permutation R중 BLEU-4 score이 가장 높은 것을 의미한다.
- 아래의 예시에서) 1/3*(BLEU4(R1, G1) + BLEU(R2,G2) + BLEU(R3,G3))
- 𝑀 = max(|𝐺|,|𝑅|)
- 예) 캠핑
- R = [캠핑 물품소, 캠핑 장소, 캠핑카 렌트]
- G = [캠핑카, 캠핑 물품]
- R의 permutation은 3!=6개
- M = max(2,3) = 3
- R* = [캠핑카 렌트, 캠핑 물품소, 캠핑 장소]이 될 것이다.
- Set BLEU score은 다른 n-grams에 대해 1/M ∑︁^𝑀_𝑖=1 BLEU-n(𝑅∗𝑖 ,𝐺𝑖)으로 계산된다.
- (4) Set BERT-Score: BERT-Score는 최근 BERT 표현을 사용하여 candidate 텍스트와 reference 텍스트 세트의 의미론적 유사성을 계산하는 데 사용되었습니다.
- Set BERT-Score은 1/M ∑︁^𝑀_𝑖=1 BERT-Score(𝑅∗𝑖 ,𝐺𝑖).
- 여기서 R*은 (3)에서 계산된 순서일듯
- BERT-Score 모델로 계산된 모든 precision, recall, and F1-measures에 대해 이 평균 성능을 계산합니다.
5.1.3 Results and Discussion.
- We use the following baseline methods in our experiment:
- QDist [73]:
- QDist는 먼저 제출된 쿼리의 여러 query variations and reformulations을 생성하고 검색을 위해 쿼리에 대한 분포를 학습하는 검색 모델입니다.
- 이 접근 방식은 facet generation을 위해 구현되지 않았지만 해당 쿼리 변형은 다른 쿼리 의도로 볼 수 있으며 모델의 기준으로 사용할 수 있습니다.
- QFI and QFJ [32]:
- 우리는 웹 검색에서 패싯 추출을 위해 개발된 QFI 및 QFJ 방법의 최신 변형을 사용합니다.
- 섹션 2에서 설명한 것처럼 각 패싯 용어의 추출 확률을 모델링하기 위해 숨겨진 변수의 확률을 추정하는 그래픽 모델을 기반으로 합니다.
- 작성자가 제공한 구현 세부 정보를 따르고 섹션 3.3에 설명된 유효성 검사 세트를 사용하여 매개 변수를 선택했습니다.
- QDMiner [17]:
- 이는 텍스트 및 html 문서에서 패싯 추출을 위한 경쟁력 있는 기준입니다.
- 쿼리 패싯 추출을 위해 여러 솔루션을 통합하는 하이브리드 접근 방식입니다.
- BART [39]: (베이스라인중 제일 좋음)
- 우리는 교육 데이터를 기반으로 BART를 미세 조정했습니다.
- 여기서 쿼리 및 검색된 상위 문서는 BART 입력이고 특수 토큰을 사용하여 분리된 모든 쿼리 패싯 설명의 concatenation은 교육을 위한 BART 대상 출력입니다.
- BART와 같은 시퀀스-투-시퀀스 모델은 재구성 및 패싯 생성 작업을 위한 강력한 성능을 제공합니다.
- 우리는 QFI 및 QFJ 모델이 기존의 다른 쿼리 패싯 추출 모델을 능가하는 것으로 나타났음을 강조합니다.
- 쿼리 패싯을 생성하기 위해 메타데이터 또는 분류법을 사용하는 많은 방법이 있으며, 이는 이 백서의 범위를 벗어납니다.
- 모든 기준선에 대해 제안된 모델과 동일한 하이퍼 매개변수 선택 방식을 따릅니다.
- 이 실험의 주요 목표는 학습된 쿼리 의도 표현의 품질에 대한 외부 평가를 제공하는 것입니다.
- 따라서 우리는 NMIR이 패싯 생성을 위한 최신 접근 방식임을 보여주려는 것이 아니라 패싯 생성 작업을 통해 학습된 표현의 품질을 입증하는 것이 목표입니다.
- 결과는 표 1에 나와 있습니다.
- 첫째, 우리는 제안된 모델이 확률적 기준선과 신경 기준선 모두를 일관되게 능가한다는 것을 관찰합니다.
- 용어 일치, 패싯 일치, n-gram 일치 및 의미적 일치 메트릭을 포함하여 실험에 사용된 모든 평가 메트릭에 해당됩니다.
- 95% 신뢰도에서 Bonferroni 보정을 사용한 쌍체 t-검정에 따르면 모든 개선 사항이 통계적으로 유의합니다.
- 서로 다른 수의 패싯에 대한 테스트 세트가 다릅니다.
- 즉, 실선으로 구분된 표 1의 서로 다른 부분의 숫자는 테스트 쿼리가 다르기 때문에 비교해서는 안 된다.
- 즉, 패싯의 수가 증가함에 따라 여전히 성능이 지속적으로 저하되는 것을 관찰할 수 있으며, 이는 점점 더 어려워진다는 사실을 고려하면 이치에 맞습니다.
- 또 다른 관찰은 QDist, QFI, QFJ 및 QDMiner와 신경 모델(BART 및 NMIR) 간의 큰 성능 차이입니다.
- 그 이유는 전자는 추출적인 패싯 생성 모델이고 후자는 추상적인 생성 모델이기 때문입니다.
- Ground Truth에는 결과 목록에 없는 패싯을 설명하기 위한 여러 용어가 포함되어 있으므로 추출 모델은 이를 생성하는 데 부족합니다.
- 이것은 추출 모델의 성능 저하를 설명합니다.
- 결과 테이블의 다음 관찰은 정확히 일치 성능이 다른 메트릭보다 상당히 낮다는 것입니다.
- 완전 일치는 지상 실측에 사용되는 정확한 패싯 설명 텍스트를 생성하는 데에만 초점을 맞추는 매우 엄격한 메트릭입니다.
- Term Overlap 및 Set BLEU는 더 부드러운 버전의 용어 및 구문 일치 측정을 제공합니다.
- 또한 NMIR에서 얻은 결과는 Precision보다 높은 Term Overlap Recall을 달성했으며 이는 모든 테스트 세트에서 일관됩니다.
- 이는 Ground Truth에 포함되지 않은 생성된 용어의 백분율이 모델에서 놓친 Ground Truth의 백분율보다 크다는 것을 보여줍니다.
- 또한 가변 패싯 수 사례에 대한 non-parametric NMIR의 성능은 생성된 패싯 수가 2일 때 성능에 더 가깝다는 것을 관찰합니다.
- 주된 이유는 MIMICS-Manual 데이터 세트에서 2~3개의 패싯을 가진 쿼리 수가 지배적이기 때문입니다.
- 생성 facet 수가 2일때 가장 성능이 좋은 이유는 데이터세트 통계상 그렇기 때문이다.
- 수동 주석을 사용하여 평가를 더욱 확장합니다.
- 우리는 어노테이터에게 쿼리를 보여주고 각 쿼리의 다양한 측면을 이해하기 위해 웹 검색 엔진을 사용하여 각 쿼리에 대한 결과 목록의 여러 페이지를 검토하도록 요청했습니다.
- 그런 다음 쿼리에 대해 BART(가장 강력한 기준) 및 NMIR에서 생성된 패싯 설명을 보여주고 품질과 적용 범위 측면에서 어느 것이 더 나은 패싯 설명 세트인지 결정하도록 요청했습니다.
- 그들은 그들 중 하나를 선택하거나 동률에 투표할 수 있습니다.
- 제시 순서(BART 대 NMIR)는 편향을 줄이기 위해 임의적이었습니다.
- 2명의 어노테이터가 테스트 세트에서 무작위로 샘플링한 100개의 쿼리에 대해 이 프로세스를 반복합니다.
- 의견이 일치하지 않는 경우 논의하여 합의를 도출하거나 질문을 폐기하도록 요청했습니다.
- NMIR 대 BART의 결과는 표 2에 나와 있습니다.
- NMIR은 사례의 48%에서 승리하고 쿼리의 22%에서 패배합니다.
- 우리는 제안된 프레임워크의 모든 구성 요소가 모델의 성능에 크게 기여하는지 확인했지만 공간 제약으로 인해 절제 연구를 실험 결과에서 제외했습니다.
- 승인되면 이러한 결과를 arXiv의 확장된 버전의 논문에 포함할 것입니다.
5.2 Clarifying Question Selection
- 사용자가 자연어 대화를 통해 필요한 정보를 찾을 수 있는 대화형 검색 시나리오를 상상해 보십시오.
- 모호하거나 패싯된 쿼리의 경우 시스템은 사용자의 정보 요구를 명확하게 이해하기 위해 명확한 질문을 할 수 있습니다.
- [2]에서 저자가 설명한 대로 다음 clarifying question을 선택하는 작업은 사용자 시스템 대화가 주어진 질문 풀에서 적절한 clarifying question을 선택하는 것입니다.
- [2, 23]과 유사하게 clarifying question을 한 후 검색 성능을 기반으로 작업을 평가합니다.
- 우리는 여러 쿼리 표현을 학습하면 명확히 해야 할 각 의도를 정확하게 표현하므로 명확한 질문을 선택하는 작업을 개선할 것이라고 믿습니다.
- 따라서 설명 선택 작업은 제안된 모델의 외적 평가에 사용됩니다.
- 즉 이 테스크는 질문을 명확히 하는 질문을 생성하는 것은 아니고, 후보들을 순위 매기는 느낌으로 보면 되는 듯
- NMIR이 query에 대해 다양한 표현을 추출할 수 있기 때문에, 이 다양한 표현(representation)이 질문을 명확히하는데 도움을 줄 수 있다고 믿는 것
5.2.1 Data.
- 이 작업을 평가하기 위해 공개 도메인 정보 탐색 대화에서 검색 설명을 위해 구성된 Qulac 데이터 세트를 사용했습니다.
- 데이터 세트의 쿼리는 TREC 웹 트랙 2009-2012에서 차용했습니다.
- 따라서 Qulac에는 200개의 주제가 포함되어 있습니다(이 중 2개는 관련성 판단 부족으로 생략됨).
- 쿼리는 TREC 웹 추적 조직자에 의해 "모호함" 또는 "패싯"으로 표시되었습니다.
- 각 쿼리와 관련성 판단과 관련된 패싯도 제공됩니다.
- 이 정보를 얻은 후 저자는 여러 차례의 크라우드 소싱을 통해 명확한 질문과 답변을 수집했습니다.
- 주제당 평균 패싯은 3.85±1.05이고 Qulac에는 총 10,277개의 질문-답변 쌍이 포함되어 있습니다.
- Qulac 데이터 세트에 대한 자세한 내용은 독자를 참조하십시오.
5.2.2 Experimental Setup.
- selecting clarifying question하기 위해 현재 지점까지의 대화 기록과의 유사성과 관련하여 풀의 모든 clarifying questions의 순위를 다시 지정합니다.
- 더 자세히 설명하기 위해 NMIR을 사용하여 사용자 쿼리𝑞(또는 현재 차례까지의 대화 기록)에 대한 여러 표현을 얻습니다.
- NMIR이 입력에 필요한 상위 검색 문서 스니펫의 경우 Dirichlet prior smoothing와 함께 쿼리 likelihood retrieval model을 사용하여 ClueWeb09-Category B에서 검색된 상위 10개 문서를 사용합니다.
- 스무딩 매개변수 𝜇는 컬렉션의 평균 문서 길이로 설정되었습니다.
- 문서 인덱싱 및 검색을 위해 오픈 소스 Galago 검색 엔진을 사용합니다.
- 스팸 문서는 임계값 70%의 Waterloo 스팸 스코어러를 사용하여 자동으로 식별되고 인덱스에서 제거되었습니다.
- 그런 다음 Indri 스니펫 생성 기능을 적용하여 문서 스니펫을 얻습니다.
- clarifying questions은 표준 BART 인코더로 represented 된다.
- 마지막 단계에서 쿼리𝑞의 각 표현은 명확한 질문 표현과 연결되고 유사성 점수를 생성하는 완전히 연결된 레이어에 공급됩니다.
- 유사도 점수가 가장 높은 질문이 선택됩니다.
- 모델은 주제에 대한 5중 교차 검증을 사용하여 훈련 및 평가됩니다.
- 즉 NMIR로 추출한 query representation과 BART로 추출한 clarifying questions의 representation을 concat하여, 유사성 점수를 생성하도록 모델을 학습/테스트
- 데이터를 몰라서 드는 생각: 스코어란 레이블이 있나? 아니면 단순히 clarifying candidates의 순서가 레이블인가?
- [2]에 보고된 실험과 일관성을 유지하기 위해 데이터에서 최대 3번의 대화를 고려하고 명확한 질문을 한 후 검색에 대한 평균 성능을 보고합니다.
- 작업의 초점이 적절한 명확한 질문을 선택하는 것임을 고려하여 앞에서 설명한 설정을 사용하여 후속 검색 모델로 쿼리 가능성을 사용합니다.
- 이 섹션의 모든 실험 설정은 데이터 세트를 도입한 Aliannejadi의 작업과 일치합니다.
- 학습률 및 배치 크기와 같은 모델의 하이퍼 매개변수는 섹션 3.3에 제공된 세부 사항을 기반으로 선택됩니다.
5.2.3 Evaluation Metrics.
- 문헌에 따라 명확한 질문을 한 후 검색 성능을 기반으로 clarifying question selection 작업을 평가합니다.
- 이에 대한 근거는 확인 질문이 적절하게 선택되면 사용자의 정보 요구를 해결하여 검색 품질을 향상시켜야 한다는 것입니다.
- 대화형 검색 작업의 특성을 고려하여 이 실험에서는 정밀 지향 메트릭에 중점을 둡니다.
- MRR(Mean Reciprocal Rank), nDCG(Normalized Discounted Cumulative Gain)와 같은 표준 IR 메트릭을 사용하며 @1, @5 및 @20의 ranking cut-offs를 사용합니다.
- 데이터의 다양한 대화에서 평균 성능을 보고합니다.
- 통계적으로 유의미한 개선은 95% 신뢰 구간(즉, p-값<0.05)에서 Bonferroni 보정과 함께 paired t-test를 사용하여 계산됩니다.
5.2.4 Results and Discussion.
- 모델을 평가하기 위해 Qulac 데이터 세트의 성능을 다음 기준선과 비교합니다.
- OriginalQuery:
- 명확한 질문을 하기 전에 검색 성능을 보여줍니다.
- 이 기준선은 설명을 요청하여 얼마나 개선되는지 보여줍니다.
- 𝜎-QPP:
- 간단하면서도 효과적인 쿼리 성능 예측기 𝜎를 사용하여 질문의 품질을 추정합니다.
- 후보 확인 질문의 경우 (답이 없는 경우) 검색을 수행하고 𝜎를 사용하여 순위 성능을 추정합니다.
- 가장 높은 𝜎로 이어지는 명확한 질문이 선택됩니다.
- LambdaMART and RankNet:
- 이러한 모델은 쿼리 성능 예측에서 질문 템플릿, BERT 유사성에 이르기까지 일련의 기능을 기반으로 명확한 질문의 순위를 재지정합니다.
- 기능 설명의 정확한 정의는 [2]에서 찾을 수 있습니다.
- BERT-NeuQS:
- [2]에서 제안된 질문 재순위를 명확히 하기 위해 사용되는 BERT 기반 모델.
- 이 모델은 쿼리, 대화 기록 및 후보 확인 질문을 연결하여 BERT에 제공합니다.
- 그런 다음 획득한 표현은 후보 확인 질문에 대한 단일 점수를 생성하기 위해 일부 기능(예: 𝜎-QPP)과 연결됩니다.
- BERT-GT:
- BERT 표현을 사용하고 Guided Transformer를 통해 가장 많이 검색된 문서를 통합하는 설명 선택을 위해 Hashemi가 제안한 모델입니다.
- 공정한 비교를 위해 단일 작업 학습 변형을 사용했습니다.
- 다중 작업 버전은 다른 기준선과 제안된 모델에서 사용할 수 없는 정보를 사용합니다.
- BART:
- 우리는 마지막 실험(k=5 및 non-parametric)에서 패싯 생성을 위해 훈련된 동일한 BART 모델을 사용했고 BERT-NeuQS 모델과 유사한 Qulac 데이터를 사용하여 인코더를 추가로 미세 조정했습니다.
- 모든 기준선과 제안된 모델은 Qulac의 저자가 제안한 것과 동일한 절차를 사용하여 훈련되고 평가됩니다.
- 결과는 표 4에 보고되어 있습니다.
- 제안된 솔루션은 nDCG@20을 제외한 모든 지표에서 모든 기준선과 비교하여 상당한 개선을 가져왔습니다.
- 또한 테이블에 오라클 하한 및 상한 성능을 포함하여 이 데이터를 개선할 수 있는 공간에 대한 통찰력을 제공합니다.
- Oracle-Best Question에서 얻은 결과는 nDCG@20과 관련하여 작은 개선을 설명하는 상한 성능 및 모델 성능과의 갭이 빡빡함을 보여줍니다.
- 또한, 결과는 non-parametric NMIR 모델이 클러스터 수가 고정된 모델(𝑘 =5)보다 성능이 우수함을 시사합니다.
- 이는 일부 쿼리에 대해 더 적지만 더 정확한 표현을 생성하는 non-parametric 모델의 기능 때문일 수 있습니다.
6 CONCLUSIONS AND FUTURE WORK
- 이 백서에서는 적절한 리소스가 주어지면 하나의 입력 시퀀스를 널리 distributed representations에 매핑할 수 있는 일반적인 프레임워크인 NMIR을 소개했습니다.
- NMIR은 패싯 및 모호한 쿼리를 더 잘 나타내기 위해 각 쿼리에 대한 여러 표현을 학습합니다.
- 인코더 및 디코더 매개변수를 초기화하기 위한 BART와 일반 쿼리 표현을 의도 표현 공간에 매핑하기 위한 Guided Transformer와 같은 최신 신경망 아키텍처를 사용하여 제안된 프레임워크를 구현했습니다.
- 또한 프레임워크의 효율적인 교육을 위해 비동기식 최적화 접근 방식을 도입했습니다.
- 쿼리 패싯 생성 및 검색 설명 선택 작업에 대한 우리의 평가는 경쟁 기준선과 비교하여 제안된 솔루션의 효율성을 입증했습니다.
- NMIR 프레임워크는 IR 및 NLP에서 광범위한 응용 프로그램을 제공합니다.
- 앞으로 제안된 프레임워크를 문서 표현 학습, 검색 결과 다양화 및 관련성 순위를 포함한 다른 주요 IR 작업으로 확장할 계획입니다.
- 예를 들어 협업 추천 시스템에서 여러 user representations을 학습하고 heterogeneous graph에서 각 노드에 대한 여러 representations을 학습합니다.
Reference
댓글
댓글 쓰기