1) sequence labeling이라 해서 document 문서들에서 해당하는 facet token을 추출하는 것이다. 마치 NER처럼 학습하는 것이라 보면 된다.
2) 생성 모델은 BART기반으로 시도하는데, 입력에 document을 넣어주냐 안넣어주냐에 따라 2가지 모델이 있다.
3) multi-label classification으로 접근한 것은, 자주 등장하는 facet (prefix, suffix 등)을 모아서 이 중에서 적절한 facet으로 분류하는 모델로 학습하는 것이다. (이 방법은 너무 별론듯? 도메인이나 테스트 환경이 정해진 분포면 쓸만할지도)
4) 빅모델(GPT3)에 프롬피팅으로 few-shot 넣어서 시도하는 방법
5) document에서 추출한 n-gram들중, query하고 많이 겹치고 많이 등장하는 놈들이 facet이 되는 형태
뭐 이것저것 해본 결과, 생성모델이(query+document) 제일 좋은 것 처럼 보인다.
추가적으로 앙상블 느낌으로 aggregation하는 방법을 3가지 제시한다.
즉 다양한 모델에서 생성된 facets들을 랭킹매겨서 보여주는 것인데
round-robin 방식이 젤 낫다고 한다.
라운드 로빈 방식은, 모델이 5개라하고 각각 Facet을 3개씩 출력했다고 하자.
f11,f12,f13
f21,f22,f23,
...
f51,f52,f53
f는 순서대로 관련성이 높게 정렬됐다고하자. (꼭 그럴필욘 없어보임)
[f1k,...,f5k]에서 각각 top-1을 뽑으면 5개의 top-1 max(f1k)가 뽑힐 것
이렇게하면 다양하게 뽑힌다고한다.
뭐 아무튼 이렇게 앙상블 하면 성능이 올라간다고 하는데.. 결국 이 방법은 더 많은 리소스를 쓰는 단점이 있긴함.
그 외 실험에 대한 분석도 나쁘지 않은 내용들인듯
Abstract
Web search 쿼리는 종종 다양한 측면(facets)으로 특징지어질 수 있습니다.
query facets 추출 및 생성에는 검색 인터페이스에서 사용자에게 search interface, search result diversification, clarifying question generation, and enabling exploratory search(탐색적 검색 활성화)와 같은 다양한 실제 응용 프로그램이 있습니다.
이 작업에서는 query facet 추출 및 생성 작업을 재검토하고 sequence labeling로써 facet extraction, autoregressive text generation 또는 extreme multi-label classification로써 facet generation을 포함하여 이 작업의 다양한 공식을 연구합니다.
우리는 광범위한 실험을 수행하고 이러한 접근 방식이 보완적인 facets 세트로 이어진다는 것을 입증합니다.
우리는 또한 관련성과 다양성을 기반으로 다양한 집계 접근 방식을 탐색하여 작업의 다른 형식으로 생성된 facet sets을 결합했습니다.
이 백서에 제시된 접근 방식은 precision and recall 측면에서 최첨단 기준선을 능가합니다.
수동 주석을 통해 제안된 방법의 품질을 확인합니다.
facet extraction and generation을 위한 오픈 소스 소프트웨어가 없기 때문에 이 작업을 위한 다양한 모델 구현을 포함하는 Faspect라는 툴킷을 출시합니다.
1 INTRODUCTION
검색 쿼리는 종종 쿼리의 암시적 또는 명시적(implicit or explicit) 측면인 여러 측면으로 특징지어질 수 있습니다.
Implicit facets은 종종 latent topics라고 합니다.
반면 explicit facets은 쿼리 측면을 나타내는 단어나 구입니다.
예를 들어, query "James Webb"가 주어질 때, 몇 개의 facets은‘James Webb satellite’, ‘assembly of James Webb’, ‘first images from James Webb telescope’, ‘launch of James Webb’, and ‘James E. Webb’이 될 수 있다.
오픈 도메인 세팅에서, facets들은 다양하고 knowledge bases을 사용해서 간단히 추출될 수 없다.
때때로 패싯은 반드시 attributes에 해당하지 않지만 쿼리 subtopics으로 간주할 수 있습니다.
예를 들어, search query "starting a business(창업)"에 대해, 몇 개의 패싯들은 ‘loans’, ‘requirements’, ‘ideas’, ‘tips’, ‘cost’이다.
패싯 추출 또는 생성에 대한 그럴듯한 솔루션은 쿼리에 대한 응답으로 반환된 가장 많이 검색된 문서를 이용하는 것입니다.
Query facet identification에는 많은 응용 프로그램이 있습니다.
쿼리에 대한 패싯 표시는 사용자가 원래 쿼리를 구체화 및 지정하고 다양한 subtopics을 탐색하는 데 도움이 될 수 있습니다.
대화식 검색 시스템에서 명확한 질문을 하기 위해 explicit facets을 사용할 수 있습니다.
사실상 내가 관심있는 부분일듯
implicit or explicit이든 쿼리 패싯을 사용하여 검색 결과를 다양화할 수도 있습니다.
open domain query facet extraction을 위한 초기 방법은 검색 엔진 결과 목록에서 terms 및 phrases의 빈도에 초점을 맞췄습니다.
검색한 결과의 흐름을 따라서 활용?
캠핑 -> 캠핑카에 관한 문서가 많이 나온다면.. 캠핑가=facet?
또한 일부 동시 발생 features을 기반으로 각 phrase 에 점수를 매기는 일부 supervised approaches이 있습니다.
최근 Hashemi는 쿼리 패싯의 효과적인 생성을 위해 neural 모델을 사용할 수 있음을 보여주었습니다.
이 백서에서는 작업의 다양한 공식을 제공하고 그 효과를 탐색하여 이 작업을 다시 검토합니다.
먼저 검색된 상위 문서에서 sequence labeling task으로 쿼리 패싯 추출을 공식화합니다.
둘째, 쿼리 패싯 생성을 autoregressive text generation 문제로 공식화합니다.
셋째, multi-label classification task으로 캐스팅합니다.
마지막으로 large PLM(예: GPT-3)에서 프롬프트 기반(또는 조건부) 텍스트 생성으로 공식화합니다.
또한 term 및 phrase 빈도를 기반으로 단순하지만 효과적인 unsupervised 패싯 추출에서 아이디어를 차용하여 이러한 공식을 보완합니다.
우리는 다양한 precision- and recall-oriented 각도에서 이러한 모든 formulations을 연구합니다.
패싯 생성 모델이 패싯 추출 모델보다 더 효과적임을 보여줍니다.
쿼리에 없는 패싯들이 더 많기 때문? 추출은 쿼리속 단어에서만 뽑는게 맞나?
우리의 분석은 이러한 공식이 보완적인 정보를 제공한다는 것을 보여줍니다.
이 관찰에 따라 서로 다른 모델에서 생성된 패싯을 aggregating 하기위한 여러 가지 접근 방식을 살펴봅니다.
앙상블 하는 느낌인가? 뒷 부분 봐야할듯
우리는 생성된 패싯의 소스를 다양화하는 round-robin approach가 recall 측면에서 상당한 개선을 가져올 수 있음을 보여줍니다.
The main contributions of this work include:
(1) text understanding and generation의 최근 발전에 힘입어 패싯 추출 및 생성 작업을 위한 새로운 공식 도입.
(2) offline evaluation를 통해 이 논문에서 연구한 모델이 baselines보다 훨씬 뛰어난 성능을 발휘함을 입증합니다. 우리는 이들의 조합이 리콜 개선으로 이어진다는 것을 보여줍니다. 결과의 manual annotation은 생성된 패싯의 높은 품질을 강조합니다.
(3) 패싯 추출 및 생성의 중요성에도 불구하고 우리가 아는 한 이 작업을 위한 오픈 소스 툴킷은 없습니다. 따라서 이 작업의 또 다른 기여는 이 백서에 포함된 패싯 추출 및 생성 방법의 다양한 구현을 포함하는 Faspect라는 오픈 소스 툴킷입니다. 이러한 리소스는 연구원과 실무자가 연구에서 패싯 추출 및 생성을 사용하는 경로를 원활하게 합니다.
2 RELATED WORK
패싯 추출에 대한 초기 작업의 대부분은 다양한 외부 리소스를 사용하는 방법에 중점을 두었습니다.
Dakka와 Ipeirotis는 Wikipedia 및 WordNet의 엔터티 계층 구조를 기반으로 잠재적 패싯 용어를 추출했습니다.
후속 작업에서 Li는 Wikipedia 하이퍼링크 및 범주에서 관련 패싯을 표시하는 패싯 검색 시스템을 개발했습니다.
Stoica는 WordNet에서 hypernym 관계를 사용하여 항목의 텍스트 설명에서 계층적 패싯 메타데이터를 생성하는 방법을 제안했습니다.
Oren은 반구조화된 RDF 데이터를 위한 패싯 인터페이스를 개발했습니다.
Kohlschtter는 개인화 된 PageRank 링크 분석 및 주석 분류법을 기반으로 한 패싯 추출 방법을 제시했습니다.
선별된 리소스를 사용하는 방법은 경우에 따라 잘 작동할 수 있지만 많은 도메인으로 쉽게 확장할 수 없습니다.
이는 구축된 외부소스를 이용해서 추출하는거 같은데.. 옛날 방식이긴한듯. 뭐 때에 따라 한정된 셋에선 더욱 효과적일 수는 있음
unstructured and semi-structured text에서 패싯을 추출하기 위한 unsupervised 방법도 있습니다.
Dou는 텍스트 패턴을 사용하여 상위 웹 검색 결과 내에서 빈번한 목록을 집계하여 쿼리 차원을 검색하는 QDMiner라는 최초의 개방형 도메인 패싯 추출 시스템 중 하나를 개발했습니다.
Wang은 가장 많이 검색된 문서에서 유사한 텍스트 조각을 클러스터링하여 패싯을 추출했습니다. 쿼리 로그에서 훈련된 클러스터와 언어 모델을 기반으로 각 패싯에 점수를 매겼습니다.
Wei는 잠재적인 패싯 단어 간의 의미론적 관계를 기반으로 패싯 트리를 구축했습니다.
Deveaud는 검색된 문서에서 LDA를 사용하여 잠재적(암시적) 쿼리 개념을 식별했습니다.
전체적인 컨셉이, 검색된 문서들을 분석해서, 클러스털이하고, 패싯단어간의 관계를 통해 트리르 구축하는 등? 하는 방법인듯
이 방법은 검색에 유용할 수 있지만 모든 latent representation을 쉽게 해석할 수 없기 때문에 explicit 패싯을 추출하지 못합니다.
보다 최근에는 패싯 추출을 위한 몇 가지 supervised 방법이 도입되었습니다.
예를 들어 Kong과 Allan은 두 용어가 쿼리 패싯에서 함께 그룹화될 가능성 외에도 각 후보 용어가 패싯 용어가 될 가능성을 학습하는 확률적 그래픽 모델을 제안했습니다.
후속 작업에서 저자는 예상 성능 측정을 최적화하고 일부 쿼리에 대한 패싯을 선택적으로 표시하는 성능 예측 모델을 사용하는 그래픽 모델을 제안했습니다.
가장 최근에 Hashemi(NL-174)는 각 검색 쿼리에 대한 여러 의도 표현을 학습할 수 있는 인코더-디코더 변환기 기반 모델을 제안했습니다.
따라서 그들의 방법은 패싯 생성에 잠재적으로 사용될 수 있습니다.
이 섹션에서 언급된 모든 방법에서 영감을 받아 추출(감독 및 감독되지 않은) 및 생성 방법의 다양한 공식과 그 조합을 연구합니다.
이 섹션에서 언급된 가장 강력한 방법 중 일부는 실험에서 기준선으로 사용됩니다.
3 FACET EXTRACTION AND GENERATION
Problem Statement:
이 논문에서는 주어진 쿼리에 대한 검색 엔진 결과 페이지(SERP)에서 패싯을 추출하고 생성하는 데 중점을 둡니다.
댓글
댓글 쓰기