◼ Comment

이 논문은 검색 질의의 결과인 SERP의 document(snippet)만 쓰는게 아니라, HTML의 구조도 활용하자는 것이다.
아마 SERP 데이터보면 document url이 있는데, 그 url을 찔러서 받은 HTML을 parsing해서 사용하는 것 같다.
먼저, HTML의 구조에서 list형 데이터를 만든다.

list형 데이터는 질의에대한 document의 snippet이 있을것이고
이 snippet의 각 토큰에 해당하는 list을 만드는 것이다.
그림 2를 보는게 이해 쉬울듯

두 번째로 상위어를 추출한다.

외부 데이터로 학습된 모듈인지, 아님 데이터 룰인지 암튼 토큰에 해당하는 상위어를 추출한다.

그럼 query -> 검색된 document -> snippet -> 각 토큰에 해당하는 list 및 상위어

이런식으로 데이터를 만들 수 있다.
이렇게 추출한 list 및 상위어에는 노이즈가 있기 때문에 이 중에서 쓸모있는것만 선별한다.
frequency 기반으로 한다고 보면됨.
근데 여기서 Common Feature 𝑓c 에서 쓰이는 사전은 test 데이터를 활용하기 때문에 cheating 느낌이 있다.

이것들을 입력으로 넣고 학습하는데, 기본적으로는 하나의 string으로 concat한다.

그리고 추가 matrix을 넣어서 토큰간의 attention을 어떻게 할지 지정해준다.

마지막으로 question과 facet generation을 target으로 동시에 넣어서 학습하면 human 평가에서 더 좋아진다고 한다.
이 논문의 핵심은 HTML데이터를 잘 파싱해서 입력으로 넣으면 성능이 좋아진다? 정도로 볼 수 있다.

어쨋거나 저쨋거나 검색된 document을 활용하는 것이기 때문에 독자적인 모델로 활용하기는 어려울 것 같기는 함

0 Abstract

대화형 검색 시스템에서 Search clarification은 여러 candidate aspect items과 clarifying question으로 구성된 clarification pane을 나타냅니다.
패널을 생성하기 위해 기존 연구는 일반적으로 구조화되지 않은 문서 텍스트를 의존합니다.
그러나 검색 결과의 중요한 structured information가 효과적으로 고려되지 않아 경우에 따라 생성된 패널이 부정확할 수 있습니다.
본 논문에서는 search clarification를 향상하기 위해 검색 결과의 구조화된 정보의 중요성을 강조합니다.
우리는 구조화되지 않은 문서를 두 가지 종류의 구조화된 정보로 강화하는 것을 제안합니다.
하나는 HTML 목록 구조에서 얻은 “In-List” 관계로, 풍부한 병렬 정보가 있는 고품질 항목 그룹을 추출하는 데 도움이 됩니다.
다른 하나는 지식 베이스에서 추출한 "Is-A" 관계로, 명시적인 프롬프트가 있는 좋은 질문을 생성하는 데 도움이 됩니다.
과도한 노이즈를 도입하지 않기 위해 비효과적인 관계를 걸러내기 위한 relation selection process을 설계했습니다.
더 나아가 명확화 패널 생성을 위한 BART 기반 모델을 설계했습니다.
실험 결과는 structured information가 고품질 명확화 패널 생성을 위한 좋은 보완임을 보여줍니다.

1 INTRODUCTION

대화 검색에 대한 Search clarification은 사용자와의 상호 작용을 통해 사용자의 의도를 이해하기 위한 중요한 역할을 합니다.
이것은 특히 ambiguous or faceted queries에 유용합니다.
기본적인 명확화 과정은 그림 1에 나와 있습니다.
사용자는 먼저 시스템에 질의를 제출합니다 (즉, TV 시리즈인 '로스트'에 대한 질의).
이 질의가 다면적인(faceted) 경우, 시스템은 질의의 하위 의도 또는 하위 주제를 나타내는 여러 가지 클릭 가능한 측면 항목과 사용자가 의도를 명확하게 하는 데 도움이 되는 선행 clarifying question (예: '로스트'의 어느 시즌을 찾고 있나요?)을 포함하는 검색 명확화 창을 반환합니다.
사용자가 제공된 항목 중 하나를 클릭하면, 질의가 그에 따라 미세 조정되고 명확화 과정은 질의가 더 이상 모호하거나 다면적이지 않을 때까지 계속됩니다.
이와 같은 검색 명확화 시스템에서 항목과 질문 모두 중요합니다:

고품질의 항목은 사용자가 빠르게 의도를 식별하는 데 도움이 되며 좋은 질문은 응답의 지능성과 신뢰성을 향상시킵니다.

aspect items and clarifying questions을 생성하기 위해 연구자들은 주로 검색된 문서 텍스트(또는 스니펫)를 주요 자원으로 광범위하게 활용해왔습니다.
예를 들어, 고품질의 측면 항목을 생성하기 위해 Dou 등은 상위 HTML 문서의 목록 구조에서 질의 측면을 추출하는 rule-based model을 제안했습니다 [7].

[7] Zhicheng Dou, Sha Hu, Yulong Luo, et al. 2011. Finding dimensions for queries. In Proceedings of the 20th ACM international conference on Information and knowledge management. 1311–1320.

최근에는 Hashemi 등 [10, 11]은 질의와 상위 검색된 스니펫을 기반으로 다중 표현을 학습하고 측면 항목을 생성했습니다.

[10] Helia Hashemi, Hamed Zamani, and W Bruce Croft. 2021. Learning Multiple Intent Representations for Search Queries. In Proceedings of the 30th ACM International Conference on Information & Knowledge Management. 669–679. [11] Helia Hashemi, Hamed Zamani, and W Bruce Croft. 2022. Stochastic Optimization of Text Set Generation for Learning Multiple Query Intent Representations. In Proceedings of the 31st ACM Internat

명확화 질문 생성에 관해서는 Wang과 Li [39]는 스니펫을 입력으로 활용하여 다중 작업 방식으로 질문 템플릿 선택과 슬롯 필터링을 연구했습니다.

[39] Jian Wang and Wenjie Li. 2021. Template-guided Clarifying Question Generation for Web Search Clarification. In Proceedings of the 30th ACM International Conference on Information & Knowledge Management. 3468–3472.

Zhao 등 [49]는 상위 검색된 문서에서 풍부한 설명 정보를 활용하여 더 가독성 있고 정보가 풍부한 질문을 생성했습니다.

[49] Ziliang Zhao, Zhicheng Dou, Jiaxin Mao, et al. 2022. Generating Clarifying Questions with Web Search Results. In Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval. 385–394.

query log [45]와 같은 다른 자원과 비교하여 검색 결과 (또는 검색된 문서)는 공개적으로 이용 가능하며 질의에 대한 맥락 정보를 더 포함하고 있어 고품질의 측면 항목과 명확화 질문을 생성하는 데 중요하다고 여겨집니다.

[45] Hamed Zamani, Susan Dumais, Nick Craswell, et al. 2020. Generating clarifying questions for information retrieval. In Proceedings of The Web Conference 2020. 418–428.

기존 방법들은 주로 검색 스니펫 (검색된 문서로)을 활용하여 대부분의 경우 high-quality items and questions을 생성할 수 있었습니다 [10, 11, 30, 39].
그러나 스니펫과 같은 unstructured information 외에도 검색 결과에는 풍부한 structured information가 포함되어 있는데, 이러한 정보는 덜 고려되고 있습니다.
실제로 aspect items and clarifying questions은 구조화된 정보와 강한 상관 관계가 있습니다.

즉 여기서는 document외에 structured 정보를 추가적으로 더 사용한 거 군

첫째, aspect items의 경우, 그들은 목록 형식으로 구성되어 있으며 이는 검색 결과의 일부 목록 구조 정보와 매우 유사합니다 [7].

예를 들어, "lost"라는 쿼리의 HTML 소스에는 TV 시리즈의 모든 시즌을 나타내는 여러 drop-down lists이 포함되어 있으며 이는 ground-truth items과 중첩될 수 있지만 비구조적 텍스트에는 이러한 명시적 정보가 포함되어 있지 않습니다.

둘째, clarifying questions의 경우, 그들은 주로 질의와 항목의 descriptions[45]을 기반으로 합니다.

따라서 이러한 "Is-A" 설명을 텍스트에 통합하면 더 나은 질문을 생성하는 데 도움이 될 것입니다.

예를 들어, 그림 1에서 "로스트 시즌 2"라는 쿼리의 정보로는 에피소드, 캐릭터, 리뷰 및 줄거리가 있습니다.
좋은 질문은 "이 TV 시리즈에 대해 무엇을 알고 싶으세요?"일 수 있습니다.
그러나 다른 안내 없이 비구조적 스니펫에서 "TV 시리즈"를 추출하는 것은 어려울 수 있습니다.
이러한 결함을 보완하기 위해 search result contexts and external “Is-A” like knowledge bases를 결합하여 "TV 시리즈"가 쿼리의 좋은 설명이라는 것을 알아내고 이를 적용하여 고품질 질문을 생성할 수 있습니다.
위의 관찰을 기반으로, 우리는 "In-List" relation와 "Is-A" relation두 가지 종류의 관계를 추출하고 이를 검색 명확화를 개선하기 위한 보충 자료로서 일반 텍스트에 통합하는 것을 제안합니다.
이 두 가지 관계는 그림 2에서 설명되어 있습니다.
그 중 "In-List" relation는 검색 결과에서 추출한 목록 구조 정보를 일반 텍스트에 통합하여 일반 텍스트 중 어떤 용어가 추출된 목록에 나타나는지 명시적으로 나타내는 관계입니다.

검색결과 documet의 snippet만 쓰지 말고
document HTML에서 In-List relation을 추출해서 사용하자?

knowledge bases (예: Concept Graph [42, 43])에서 추출한 "Is-A" relation는 query and items의 descriptions을 명시적으로 일반 텍스트에 추가하여 모델이 보다 정확한 명확화 질문을 생성하도록 장려합니다.

Is-A relation은 knowledge base (Concept Graph)에서 추출한 것 같은데?

그림 2에서 보여진 것처럼 이 두 가지 관계를 활용한 후, unstructured document text는 structured tree로 확장됩니다.
term에서 시작하는 branch는 어떤 목록에 용어가 포함되어 있는지와/또는 용어를 적절하게 설명할 수 있는 "Is-A" 설명이 무엇인지를 나타냅니다.
반면, extracted relations에는 관련 없는 목록과 설명과 같은 과도한 잡음이 포함될 수 있습니다.
extracted relations의 품질을 보장하기 위해, 우리는 먼저 frequency, semantic similarity, and common-occur information를 포함한 human-designed features을 사용하여 중요한 “In-List” relations를 순위를 매기고 선택하고, 그런 다음 검색 결과 컨텍스트를 사용하여 "Is-A" 관계를 필터링합니다.
knowledge noises을 도입하지 않도록 하기 위해, 우리는 BART [21] 인코더를 two-granularity visible matrices로 수정합니다.

(1) Intra-document matrix: 기존 연구를 따르면, 문서 내 동일한 가지의 토큰만 서로를 볼 수 있습니다.
(2) Cross-document matrix: 서로 다른 검색 결과 문서의 경우, 동일한 "In-List" 또는 "Is-A" 관계를 포함하는 것만 서로를 볼 수 있도록하여 관련 없는 문서 간의 무효한 주의를 방지합니다.

우리는 MIMICS 데이터셋 [46]을 사용하여 제안한 방법을 훈련하고 평가합니다.
실험 결과는 기존 모델과 비교하여 항목 또는 질문을 생성하는 모든 측면에서 우리의 제안된 방법이 다양한 측정 지표에서 더 우수한 성능을 보여줍니다.
또한, 우리의 제안된 방법이 독립적으로 고품질의 측면 항목 또는 명확화 질문을 생성할 수 있지만, 경우에 따라 다른 의미를 나타낼 수 있으며 통일성이 부족하며 사용자 경험에 영향을 미칠 수 있습니다.
따라서 우리는 모델의 디코더 부분에서 동시에 질문과 여러 항목을 생성하려고 시도하기도 합니다.
이렇게 하면 사용자에게 직접 통합된 명확화 창을 제공할 수 있습니다.
또한, 우리의 제안된 구성 요소인 "In-List" 및 "Is-A" relation extraction, relation selection, and multi-granularity visible matrix과 같은 컴포넌트들이 모두 실험 결과에 긍정적인 영향을 미치는 것을 보여주는 유발 동기의 효과를 입증하는 실험을 진행합니다.
전반적으로, 우리의 기여는 다음과 같습니다:

To our best knowledge, we are the first trying to incorporate structured information for search clarification generation. This idea can also be extended to some other IR tasks.
We design a process to mine structured relations from search results together with an end-to-end model to integrate structured relations with unstructured plain text.
Experimental results demonstrate the effectiveness of our idea and method for generating clarifying questions and aspect items for search clarification.

2 RELATED WORK

3 METHODS

3.1 Structured Information in Search Results

최상위 검색된 문서들은 aspect items 𝑆 [10] 및 명확화 질문 𝑄 [39]을 생성하는 데 사용되었습니다.
기존 작업은 일반적으로 검색 스니펫을 검색된 문서 𝐷로 사용하며, 쿼리 𝑞와 각 문서 𝑑𝑖를 "𝑞 [SEP] 𝑑1 [SEP] 𝑑2 [SEP] ... [SEP] 𝑑|𝐷 |"와 같은 특별한 토큰([SEP])으로 연결하거나, 각각 인코딩하여 그들의 표현을 얻습니다.
그러나 어떤 인코딩 방법을 선택하든 검색 결과에 포함된 구조화된 정보는 무시되어 일부 경우에는 생성된 항목과 질문이 부정확해집니다.
(1) aspect items 𝑆의 경우, 일반적으로 HTML documents에서 list structure로 구성됩니다 ("In-List") [7].

이러한 구조를 명시적으로 표현하여 생성하는 데 도움이 된다고 보고 있습니다.
이러한 구조의 안내 없이 모델은 비구조적 문서에서 구조화된 목록을 요약하기가 어려워져 생성된 항목의 품질이 저하될 수 있습니다.
HTML에서 뽑은 list 구조인 in-list 가 facet 생성에 도움된다.

(2) clarifying question 𝑄의 경우, 𝑄의 많은 부분이 쿼리 𝑞 또는 항목 𝑆의 "Is-A" 설명에 의존합니다 [45, 46, 49].

예를 들어 그림 1에서 "로스트 시즌"은 𝑆의 설명입니다: [시즌 1, 시즌 2, 시즌 3, 시즌 4],
따라서 좋은 질문은 "로스트의 어떤 시즌을 찾고 계십니까?"가 될 수 있습니다.
정보 안내 없이 모델은 평범한 텍스트의 다양한 용어로 쉽게 혼란스러워질 수 있습니다.
이러한 상황에서 모델은 "검색을 미세 조정하려면 하나를 선택하세요"와 같은 일반적인 질문을 대량으로 생성하기 쉽기 때문에 이는 사용자 경험에 부정적인 영향을 미칠 수 있습니다.
is-A가 clarifying question을 생성하는데 도움된다.

(3) "Is-A" relation는 명확화 질문 뿐만 아니라 특히 모호한 질의의 경우 측면 항목을 생성하는 데 도움이 됩니다.

예를 들어, "사과"라는 질의는 "사과 회사", "사과 과일", "사과 영화"와 같은 모호한 항목을 가질 수 있습니다.
이러한 질의의 경우, 잠재적인 다양한 "Is-A" 관계를 이해하면 모호한 항목을 식별하는 데 도움이 됩니다.
반면에 "In-List" 관계도 명확화 질문을 더 잘 생성하는 데 도움이 된다고 보고 있습니다.
왜냐하면 목록 구조는 일반 텍스트에 항목에 대한 잠재적인 설명 후보를 도입하기 때문입니다.
is-A가 facet을 생성하는데 도움된다.

검색 결과에서 "In-List" 및 "Is-A" 관계의 효율성을 고려할 때 이를 측면 항목 생성 프로세스에 통합하고 질문을 명확하게 하는 것이 중요합니다.
이 섹션의 다음 부분에서는 먼저 제안한 방법의 전체 프레임워크를 소개한 다음 프레임워크의 각 구성 요소를 하나씩 철저하게 설명합니다.

3.2 Framework

"In-List" relation와 "Is-A" relation를 통합하여 aspect items 𝑆와 clarifying questions 𝑄을 생성하기 위한 프레임워크를 그림 2에 나타난대로 제안합니다.
먼저, 사용자는 검색 엔진에 질의 𝑞 ("google chrome exe")를 입력하여 검색된 문서 𝐷 = {𝑑1, 𝑑2, ..., 𝑑|𝐷 |}를 얻습니다.
본 논문에서는 문서 길이를 제한하기 위해 이러한 스니펫을 𝐷로 사용하며, 이는 이전 연구와 일치합니다 [10, 11, 30, 39].
그런 다음, HTML 문서에서 목록 구조 𝐿 = {𝑙1,𝑙2, ...,𝑙|𝐿|}을 얻기 위한 알고리즘을 실행합니다.

다음으로, "In-list" 및 "Is-A" 관계를 𝐷에 주입하여 평범한 스니펫 텍스트를 트리 구조로 확장합니다.
불필요한 관계를 통합하지 않기 위해 relation selection process를 진행하여 𝑆 또는 𝑄를 생성하기 위한 중요한 관계만 유지되고 쓸모없는 관계는 제거됩니다.
즉, HTML에서 list을 추출하는 알고리즘을 통해 in-list을 추출한다.
그리고 in-list와 is-A를 snippet of document (SERP)와 결합하여, 스니펫을 트리구조로 확장한다.
is-A는 external knowledge로 구축된 모듈로부터 뽑는듯?
최종적으로 확장된 트리구조가 모델의 입력이 되는 것

마지막으로, end-to-end 훈련 및 생성을 위해 트리 구조를 모델링하기 위해 BART [21]를 적용합니다.
BART의 원래 주의 매트릭스는 트리 구조를 고려하지 않기 때문에, K-BERT [22]를 따라 knowledge noises을 도입하지 않기 위해 두 가지 미시물체에 대한 가시 매트릭스를 수정합니다.

Weijie Liu, Peng Zhou, Zhe Zhao, et al. 2020. K-bert: Enabling language representation with knowledge graph. In Proceedings of the AAAI Conference on Artificial Intelligence, Vol. 34. 2901–2908.

3.3 Obtaining Search Result Documents

우리는 MIMICS 데이터셋의 모든 질의에 대해 Bing의 웹 검색 API로 반환된 검색 결과를 얻었습니다.
각 질의에 대해 우리는 상위-𝑘 스니펫을 𝐷 = {𝑑1, 𝑑2, ..., 𝑑𝑘}로 얻었으며, 여기서 𝑘는 10 이하입니다.
또한, 각 검색 결과 URL에 해당하는 HTML 소스 파일을 크롤링하여 추가로 구조화된 정보를 추출했습니다.

SERP에 있는 URL의 HTML을 파싱해서 사용한듯?

3.4 Obtaining List Structures

제 3.1 절에서 언급한 것처럼 HTML의 목록 구조에는 일반적으로 중요한 구조화된 정보가 포함되어 있습니다.
예를 들어,

쇼핑 웹사이트의 네비게이션 바는 사용자가 다양한 관점에서 상품을 검색할 수 있도록 도와주며,
위키피디아의 일부 중요한 속성은 일반적으로 목록 형식의 테이블로 나타납니다.

일반 텍스트와 달리 검색 결과에 포함된 목록 구조를 추출하는 것은 어려운 작업입니다.
왜냐하면 목록은 다양한 형태의 HTML 코드로 구성될 수 있으며, 반면 검색 결과의 일반 텍스트는 더 간단하고 추출하기에 더 편리합니다.
HTML에서 목록 구조를 얻기 위해 우리는 효과적인 알고리즘 [7]을 구현했습니다.

[7] Zhicheng Dou, Sha Hu, Yulong Luo, et al. 2011. Finding dimensions for queries. In Proceedings of the 20th ACM international conference on Information and knowledge management. 1311–1320.

이 알고리즘은 인간이 디자인한 규칙을 사용하여 HTML list tags, tables, and repeat regions using human-designed rules과 같은 다양한 리소스에서 목록 구조를 추출합니다.
각 사용자 질의 𝑞에 대해 알고리즘은 다운로드한 HTML 파일을 구문 분석하고 해당 목록을 가져옵니다.
그런 다음 list은 하나의 총 목록 세트 𝐿 = {𝑙1,𝑙2, ...,𝑙|𝐿|}로 모아집니다.

각 list은 여러 terms로 구성된 𝑙𝑖 = {𝑡1, 𝑡2, ..., 𝑡|𝑙𝑖|}입니다.

추출된 원래 목록에는 과도한 잡음이 있으므로 유사한 목록을 클러스터링하고 중요한 목록을 선택하고 무용한 목록 및 목록 용어를 삭제하기 위해 관계 선택 프로세스를 추가로 설계했습니다.
자세한 내용은 섹션 3.7을 참조하십시오.

그림2로 추측하기엔, 쿼리에 검색된 문서가 있을 것이다.
이 문서의 스닙펫이 있을 것이고, 스닙펫의 각 키워드에 해당하는 list을 뽑는다.
아마도 HTML에서 각 키워드와 근처에있는 #, -, *등이 있는 것을 list 후보로 볼 듯
그래서 모은것을 list라고 간주하는데, 여기엔 noise가 많으니까 노이즈제거 작업이 들어간다고함
근데 그림 2에서 보기엔, 키워드를 필터링하는 것 같음.
즉 사용될 키워드만 뽑고 이에 해당하는 list를 그대로 사용하는 느낌?

3.5 “In-List” Relation Extraction

"In-List" 관계를 (𝑡, 𝐼𝑛-𝐿𝑖𝑠𝑡,𝑙)라는 triple로 정의합니다.
여기서 𝑡는 검색된 문서 텍스트(스니펫)에서의 용어(n-gram)이며, 𝑙은 섹션 3.4에서 언급된 방법을 사용하여 검색 결과에서 추출된 목록입니다.
추출 프로세스는 각 스니펫 용어를 각 목록 용어와 일치시켜 효과적으로 완료될 수 있습니다.
"In-List" 관계는 평범한 텍스트에 있는 용어가 HTML 소스에서 추출된 목록 구조에 나타난다는 것을 나타냅니다.
이러한 종류의 관계는 쿼리의 측면 항목을 찾는 데 유용합니다.
왜냐하면 항목은 일반적으로 목록 구조로 구성되며 추출된 목록에는 잠재적으로 고품질 항목이 포함되어 있을 가능성이 높기 때문입니다.
예를 들어, "시계"라는 쿼리의 경우, 스니펫의 "Omega" 용어는 추출된 목록 [Omega, Casio, Citizen, Rolex, Cartier]에 있습니다.
이러한 목록 구조 관계를 검색 스니펫에 통합함으로써 다른 시계 브랜드에 관한 정보를 통합하여 원래 용어 "Omega"의 표현을 향상시킬 수 있으므로 이러한 브랜드들은 고품질 항목 그룹으로 처리될 가능성이 높아집니다.

3.6 “Is-A” Relation Extraction

"Is-A" 관계는 일반적으로 용어의 hypernyms를 찾기 위해 사용되며, 개체의 범주는 설명을 명시적으로 나타내는 데 도움이 됩니다.
"In-List" 관계와 마찬가지로 "Is-A" 관계는 삼중체 (𝑡, 𝐼𝑠-𝐴, ℎ)로 형식화될 수 있으며, 여기서 𝑡는 용어를 나타내고, ℎ는 그 상위어를 나타냅니다.
예를 들어, 𝑡가 "apple"인 경우 ℎ는 "company" 또는 "fruit"이 될 수 있습니다.
"Is-A" 관계는 명확하게 𝑞 또는 𝑆의 설명을 나타내므로 고품질의 정보를 제공하는 명확화 질문 [39, 45, 49]을 생성하는 데 도움이 됩니다.
"Is-A" 태그로 검색 스니펫을 레이블하려면 먼저 "Is-A" 관계를 가진 knowledge base를 얻어야 합니다.
우리는 대규모 "Is-A" 관계를 포함하는 두 개의 일반적으로 사용되는 지식 베이스인 Concept Graph [42, 43]와 WebIsA [31]를 선택합니다.
즉 external knowledge을 통해, 상위어를 생성(추출?)하는 모듈을 만들었다고 보면 될 듯
그런 다음 "In-List" 관계와 함께 "Is-A" 관계를 동시에 일반 텍스트에 통합합니다.
이 두 가지 관계를 통합함으로써 평범한 검색된 문서 텍스트는 그림 2에 나타난 트리 모양 데이터로 확장될 수 있습니다.

3.7 Relation Selection

모든 추출된 "In-List" 관계와 "Is-A" 관계를 간단히 고려할 때, 많은 관련 없는 관계를 도입하면 항목 및 질문 생성에 아무런 효과가 없거나 오히려 부정적인 영향을 미칠 수 있습니다.
예를 들어, 그림 2에서 "Is-A" 관계 (“download” is an “operation”)는 명확한 질문 생성에 도움이 되지 않으며 목록 [download, install, fix]은 이 경우에 고품질 항목을 생성하는 데 도움이 되지 않습니다.
따라서 이러한 중요하지 않은 관계들은 부정적인 영향을 피하기 위해 명시적으로 제거되어야 한다고 생각합니다.
이를 위해 "In-List" relation와 "Is-A" relation 각각에 대한 방법을 설계했습니다.
relation selection process은 향상된 스니펫의 길이를 제한할 수 있으며, 이는 대중적인 self-attention-based encoder를 표현에 편리하게 사용할 수 있습니다.

3.7.1 “In-List” Relation Selection.

"In-List" 관계에 대해서, 추출된 목록 집합 𝐿은 두 가지 관점에서 분석될 수 있습니다:
(1) 추출된 목록 중 일부 쌍 사이에 많은 항목이 중복될 수 있습니다.

예를 들어, 𝑙1: [Windows 7, Windows 10, Windows XP]와 𝑙2: [Windows 10, Windows XP, Android] 모두 "Windows 10"과 "Windows XP"를 포함하고 있으므로 이들은 잠재적으로 유사한 의미를 나타낼 수 있습니다.
이러한 경우, 중복을 제거하기 위해 이러한 여러 목록을 하나의 목록으로 클러스터링하는 것이 필요합니다.

(2) 클러스터링 과정에서 일부 항목은 자주 나타날 것이고, 다른 일부 항목은 가끔 나타날 것이므로 그 중요성이 다를 것입니다.

위의 예에서 "Windows 10"과 "Windows XP"는 더 중요합니다. "Android"와 같은 저빈도 용어는 노이즈로 간주되어 제거해야 합니다.

따라서 첫 번째 관점에 대해서는 𝐿 내에서 유사한 목록을 클러스터링하기 위해 목록 클러스터링 알고리즘 [7]을 적용합니다.
두 번째 관점에 대해서는 클러스터링된 목록 집합 내의 각 목록 𝑙에 대한 중요도 점수 𝑐(𝑙)를 설계합니다.
이 점수는 각 목록과 목록 내 각 용어의 중요성을 측정하며, 후속 생성을 위해 목록과 용어를 순위 매기고 선택하는 데 사용됩니다.
목록의 중요성을 다양한 관점에서 고려하기 위해 중요도 점수를 다음 네 가지 특성의 곱으로 정의합니다:

list frequency feature 𝑓l(𝑙),
document frequency feature 𝑓d(𝑙),
semantic feature 𝑓s(𝑙),
common feature 𝑓c(𝑙):
𝑐(𝑙) = 𝑓l(𝑙) × 𝑓d(𝑙) × 𝑓s(𝑙) × 𝑓c(𝑙).

마지막으로, 𝐿 내의 top-x 목록 구조를 “In-List” relation pool로 선택합니다.
또한, 각 목록에 대해서는 가장 높은 빈도로 top-y terms만을 유지하여 관련 없거나 불필요한 terms를 필터링합니다.
여기서 𝑥와 𝑦는 결정해야 하는 두 개의 하이퍼파라미터입니다.
위의 네 가지 특성의 정의는 다음과 같이 설명됩니다:
List Frequency Feature 𝑓l .

list에서 빈도가 높은 terms는 검색 결과의 구조화된 정보에서 높은 비율을 차지한다는 것을 나타냅니다.
우리는 list의 frequency 특성을 목록 내 모든 terms의 빈도의 합으로 정의합니다:
즉 list내의 terms들이 얼마나 자주 등장하는가?를 계산.
모든 terms의 frequency의 아래와 같은 합이 list의 frequency가 된다.
여기서 𝑁𝐿(𝑡𝑖)는 term 𝑡𝑖의 빈도를 나타냅니다.
𝑝와 𝑘는 중요도와 스케일을 제어하는 두 개의 매개변수입니다.
tanh() 함수는 특성의 범위를 조절하기 위한 것으로, 아래와 동일합니다.

Document Frequency Feature 𝑓d

list 외에도 텍스트에 나타나는 용어들은 사용자 쿼리와 관련이 있습니다.
따라서 HTML 텍스트에 나타나는 모든 용어의 빈도를 합산하여 목록의 문서 빈도를 계산합니다.
list에 없는 terms들도 feature로 활용하자!
where 𝑁𝐷 (𝑡𝑖) denotes the frequency that 𝑡𝑖 occurs in HTML texts.

Semantic Feature 𝑓s.

High-quality items은 일반적으로 강력한 의미적 상관관계를 가지고 있습니다 [46].
따라서 우리는 pre-trained BERT-base 모델을 적용하여 각 용어의 벡터 표현을 얻은 다음 평균 코사인 유사도를 계산합니다.
where BERT() is a BERT model, sim() is cosine similarity function.
i,j의 범위가 어떻게 되는거지?
수식만 봤을 때는, list내의 term끼리 유사도 평균이 list의 semantc feature이 되는 느낌이다.
즉 list에 비슷비슷한 items들로 구성이 됐다면, 이는 잘 만들어진 list일 것이다?

Common Feature 𝑓c.

일부 uncommon terms는 추출된 목록의 품질에 부정적인 영향을 미칠 수 있으므로, 전체적으로 자주 나타나는 용어를 유지해야 합니다.
이를 달성하기 위해 우리는 MIMICS-Manual [46] 데이터셋을 통해 용어 빈도 사전 𝐹 [·]을 얻은 다음 공통 특성을 계산합니다.
즉 MIMICS-Manual을 통해 term frequency 사전 F을 얻는다.
이 F을 통해, list의 items들이 흔하게 나타난 terms 위주로 구성되면 좋은 list라고 간주하자.
근데 F을 사용한다는건 테스트 세트의 정보를 사용한다는 것인데.. 뭔가 치팅느낌인데?

3.7.2 “Is-A” Relation Selection.

“Is-A” relation에 대해서는 query 𝑞 and items 𝑆의 descriptions만이 명확한 질문을 생성하는 데 도움이 됩니다 [45].
반면, documents 𝐷에 무관한 용어가 'Is-A' 관계로 레이블링되면 관련 없는 노이즈가 많이 도입될 수 있습니다.
즉 상위어중에 document와 연관성이 있는 것들만 사용해보자!
따라서 추출된 'Is-A' 관계의 효과를 보장하기 위해 다음 두 가지 가정을 합니다:
(1) 'Is-A' 관계로 레이블을 지정하는 모든 terms가 아닌, 쿼리 𝑞와 겹치는 terms 또는 'In-List' 관계로 표시된 terms만 레이블을 지정합니다.

전자는 쿼리 𝑞의 설명을 통합하는 것이고, 후자는 잠재적인 항목 𝑆의 설명을 통합하여 더 나은 질문 𝑄을 생성하기 위함입니다.
상위어중에 q와 겹치거나 in-list에 있는 것들을 사용?

(2) 또한, 추출된 'Is-A' 설명은 때로 모호할 수 있습니다. 예를 들어 사용자가 Apple의 관련 전자제품을 검색할 때 "Apple은 과일이다"라고 레이블을 지정하면 유용한 정보를 제공하지 않습니다.

따라서 'Is-A' 설명은 검색된 문서 텍스트에서 발생해야 하며, 상관 관계를 보장하기 위해 노력합니다.
이 상황에서 "Apple은 회사이다"라는 설명이 더 자주 추출될 가능성이 있어 질문 생성에 추가 정보를 제공합니다.
document에 더 자주 등장하는 상위어 사용? (사과의 상위어는 과일대신 회사 개념)

3.7.3 Relation Re-sampling.

게다가, selected relations들은 여전히 많을 수 있으며 repeated relations의 큰 수는 중복성을 일으킬 수 있으므로, 우리는 추출된 관계들을 추가로 샘플링하여 이 관계 텍스트의 총 길이가 문서 𝐷의 20%를 초과하지 않도록 합니다.
이러한 접근은 평문 텍스트와 relation-based texts간의 길이 균형을 유지하며 텍스트 내의 의미 정보가 이러한 관계들에 의해 지배되지 않도록 합니다.

3.8 BART-based Generation Model

relation extraction and selection 이후 원래의 스니펫 텍스트는 Figure 2에 표시된 관계 강화 트리 구조로 변환되었습니다.
이러한 구조화된 데이터를 올바른 네트워크 구조를 사용하여 모델링하는 것이 후속 생성에 중요합니다.
이러한 구조화된 데이터를 인코딩하기 위해 K-BERT [22]는 엔티티 다음에 지식 트리플을 직접 삽입합니다.

그러나 텍스트에 너무 많은 지식을 도입하면 원래 문장의 의미에 영향을 미칠 수 있으며 이를 지식 노이즈 문제라고 합니다.
그래서 K-BERT는 visible matrix를 조정하여 단어의 임베딩이 트리 구조 텍스트의 동일한 분기의 문맥에서만 나오도록 합니다.
다른 분기의 단어들은 서로 고려하지 않습니다.

K-BERT와 달리, 우리는 문서 내 visibility 뿐만 아니라 다른 문서 간의 visibility 도 고려해야 합니다.

relation-enhanced tree-structured data를 모델링하고 나서 aspect items 및/또는 clarifying questions을 생성하기 위해 우리는 시퀀스-투-시퀀스 학습을 위한 인코더와 디코더로 구성된 BART 기반 언어 모델을 제안합니다.

디코더는 생성을 위한 원래 BART와 일치합니다.
인코더는 주로 입력 데이터의 각 토큰의 visibility 을 두 가지 레벨의 granularity visible matrix로 모델링합니다:

intra-document matrix
cross-document matrix
document마다 추출된 In-List 및 In-A relation이 있을 텐데, 다른 document에서 나온 것끼리의 관계를 계산한게 cross-doucment?
같은 document에서 추출된 snippet 및 In-List 및 In-A relation의 관계는 intra-document?
PLM은 그냥 K-BERT을 쓰는건가?

두 종류의 매트릭스는 전체 visible 매트릭스로 연결됩니다.
우리가 제안한 모델의 그림은 Figure 3에 나와 있으며 이는 검색된 문서 텍스트(스니펫)의 예로 "Windows용 Google Chrome 64비트 다운로드. 빠르고 안전한 브라우저."를 사용합니다.

3.8.1 Intra-document Matrix

K-BERT [22]와 유사하게, 단일 검색된 문서 (스니펫)에서 토큰은 동일한 분기에 있는 다른 토큰에만 참석할 수 있습니다.
또한 토큰이 동시에 "In-List" 및 "Is-A" 관계로 표시된 경우, 해당 "In-List" 관계 및 "Is-A" 관계가 서로 attend 하도록 허용하여 두 관계의 co-occurrence information를 통합합니다.

Figure 3의 "Windows" 토큰과 같이.
즉 In-List와 In-A가 둘다 있으면, 이 두 relation의 co-occurence 정보를 활용한다?

우리는 단일 스니펫 내에서 visible matrix를 intra-document 매트릭스 𝐼로 정의합니다:
- 여기서 𝑖와 𝑗는 각 토큰의 고정된 인덱스입니다.
- 𝑤𝑖 ⊖ 𝑤𝑗는 두 토큰이 동일한 분기에 있다는 것을 의미하며, 𝑤𝑖 ⊘ 𝑤𝑗는 그렇지 않다는 것을 나타냅니다.
- 𝑤𝑖 ⊕ 𝑤𝑗는 두 토큰이 각각 동일한 토큰에 의해 생성된 "In-List" 및 "Is-A" 관계에 속한다는 것을 나타냅니다.
- 동일한 분기에(같은 relation) 있거나, 동일한 토큰에 의해 생성된 relation간의 intra 값은 0
- 그게 아니면 -무한대

여기서 3, 5, 8, 9, 10, 11은 In-List or In-A relation에 해당하는 token들이다.
3은 1,2,에 해당하는 토큰들에 해당하는 relation
5는 4에 해당하는 relation
8,9,10,11은 7에 해당하는 relation
즉 relation은 해당하는 토큰에는 attention이 들어오지만, 그게 아니면 attention을 안한다는개념인듯
파란색=In-List, 보라색=In-A을 의미
근데 왜 값을 0과 -무한대로 하는거지? 1과 0이 아니라 --> 식 7번을 보면됨
이는 같은 document내에서 살펴보는 것!

3.8.2 Cross-document Matrix

우리 모델의 입력 데이터는 top-𝑘 relation-enhanced snippet으로 구성됩니다.
데이터를 인코딩할 때 서로 다른 문서가 서로에게 완전히 주의를 기울이게 되면 불필요한 노이즈가 도입될 수 있습니다 [22].
한 가지 방법은 각 문서가 자신에게만 집중하도록 하는 것이지만, 이렇게 하면 문서 간 상호 작용 정보가 무시됩니다.

예를 들어, 𝑑1은 두통의 증상과 치료를 언급하고, 𝑑2는 그 치료와 원인을 언급합니다.
두 문서는 모델이 "두통"을 더 포괄적으로 이해하기 위해 서로에게 주의를 기울여야 합니다.
따라서 우리는 서로 다른 문서 간의 주의를 다시 설계합니다.

두 문서 𝑑𝑖와 𝑑𝑗의 경우, 동일한 "In-List" 또는 "Is-A" 관계를 포함하면 그들의 텍스트 간 visibility 을 구축해야 합니다.

이로 인해 |𝐷|^2 - |𝐷| cross-document matrices 𝐶^𝑖,𝑗 가 생성되며, 여기서 1 ⩽ 𝑖, 𝑗 ⩽ |𝐷|입니다.
모든 문서간의 쌍개수 D^2-D이므로

마지막으로 모든 intra-document 매트릭스 𝐼와 cross-document 매트릭스 𝐶를 결합하여 BART 인코더의 최종 visible 매트릭스 M을 구성합니다:

즉 같은 문서안에서의 관계는 intra-document matrix로 계산되고
다른 문서간의 관계는 cross-document matrix로 계산된다.
C을 계산하는 방법은 다른 document내에서 동일한 In-List 혹은 Is-A을 가지는 token/relation끼리는 0, 아니면 -무한대로 값을 매기는 듯?

The self-attention mechanism can then be redefined with:

위에서 0또는 -무한대로 값을 매기는 이유
-무한대로 매긴다는 것은 softmax안의 값이 엄청 작아지므로 attention을 안한다는 의미가 되고
0을 매기면 일반적으로 attention 한다는 것이 된다.

visibility외에도 모델이 입력의 다른 부분을 더 쉽게 구별할 수 있도록 BART의 임베딩 레이어를 추가로 수정합니다.
원래의 BART [21] 임베딩 레이어는 위치 임베딩과 토큰 임베딩으로 구성됩니다.
두 가지 임베딩 모두 입력 시퀀스의 위치 정보와 토큰의 의미를 인코딩하는 학습 가능한 매개변수입니다.
그러나 이 두 임베딩은 용어가 스니펫 텍스트인지 관계인지를 구별할 수 없습니다.
따라서 우리는 Figure 3에 나와 있는 세 번째 세그먼트 임베딩을 추가합니다.
이를 통해 입력 데이터의 다른 부분을 나타내기 위해 다른 토큰을 사용하며, 이는 [5]와 유사합니다.

4 EXPERIMENTS

이 섹션에서는 다음 세 가지 연구 질문에 대한 답을 제시하고자 합니다:
(1) RQ1: 추출된 구조화된 정보가 더 나은 항목과 질문 생성을 돕는지 여부는 무엇인가요?

이 중에서 RQ1은 주로 우리가 제안한 방법이 항목과 질문 생성에서 기존 기준선보다 더 나은 성능을 발휘할 수 있는지를 연구합니다.

(2) RQ2: 𝑄(question)와 𝑆(items)의 공동 생성과 생성 순서가 결과에 미치는 영향은 무엇인가요?

RQ2는 주로 모델이 항목과 질문을 동시에 생성할 수 있어서 더 통합적인 설명 창을 생성하는 데 적용될 수 있는지를 탐구합니다.

(3) RQ3: 우리 제안한 프레임워크의 각 부분이 실험 결과에 어떤 영향을 미칠 수 있는지는 어떤가요?

RQ3은 우리가 제안한 중요한 구성 요소가 실험 결과에 도움이 되는지를 더 자세히 조사합니다.

4.1 Dataset

MIMICS [46]는 40만 개 이상의 데이터 조각으로 구성된 데이터셋으로, 각 데이터 조각은 쿼리, 여러 측면 항목 및 하나의 명확한 질문으로 구성됩니다.
MIMICS 데이터셋을 처리하여 (𝑞, 𝑆, 𝑄) 집합을 얻습니다.
여기서 𝑞는 쿼리를 나타내고, 𝑆는 항목 집합(facet)이며, 𝑄는 clarifying question입니다.
우리는 각 쿼리 𝑞에 대해 MIMICS에서 제공하는 상위 10개의 검색된 스니펫을 다운로드하여 해당 URL 및 HTML 파일과 함께 검색된 문서 집합 𝐷로 사용합니다.
이는 우리가 제안한 모델을 평가하기 위해 MIMICS-Manual 데이터 중 공정(Fair) 또는 좋음(Good) 라벨을 가진 데이터를 사용하는 트레이닝 데이터로 MIMICS-Click 데이터를 사용하는 측면 항목 생성과 일관성을 유지하기 위한 것입니다.
명확한 질문 생성에 대해서는 훈련과 평가를 위한 다양한 질문 템플릿의 수를 균형있게 유지하는 MIMICS [39]의 하위 집합 (약 4만 개)을 사용합니다.

그냥 있는거 그대로 쓴건 아닌듯.
왜냐하면 데이터를 실제로 보면 Select one to refine your search에 해당하는 claryfing question이 너무 오버 밸런스 느낌

4.2 Evaluation Metrics

items generation 관련하여, 이전 연구에서는 네 가지 종류의 평가 지표 세트를 적용합니다 [10, 11, 30].
(1) Term overlap precision, recall, and F1:

이 세 가지 지표는 생성된 용어 집합과 사전 정의된 실제 용어 사이의 중첩을 계산합니다.
이 중첩은 이전에 query facets mining을 평가하기 위해 사용된 것입니다 [18].

(2) Exact match precision, recall, and F1:

이 세 가지 지표는 용어 중첩 지표보다 엄격하며, 생성된 항목이 실제 항목과 정확히 일치하는 경우만 측정합니다.

(3) Set BLEU:

BLEU는 후보 텍스트 조각과 참조 텍스트 집합 간의 n-gram 유사성을 측정하기 위해 일반적으로 사용됩니다.
우리는 이러한 지표가 두 집합 간의 n-gram 유사성을 측정할 수 있도록 1-gram에서 4-gram까지 Set BLEU 점수를 계산합니다.

(4) Set BERT score precision, recall, and F1:

BERT score 는 문장 간의 의미적 유사성을 계산하는 데 널리 사용됩니다.
Set BLEU와 유사하게, 우리는 두 개의 텍스트 집합 간의 의미적 유사성을 평가하기 위해 Set BERT 점수를 구현합니다.

우리는 또한 이전 연구에서 정의한 네 가지 종류의 평가 지표를 사용하여 clarifying questions의 품질을 평가합니다 [39].

clarifying question selection (CQS) 모델과 clarifying template selection (CQT) 모델의 경우, 생성된 질문 템플릿 중 얼마나 많은 것이 실제 질문과 일치하는지를 측정하기 위해 정확도를 사용합니다.
또한 상위 3개의 순위로 선정된 질문 템플릿의 품질을 평가하기 위해 3-head beam search를 적용하여 MRR@3을 사용합니다.
명료한 질문 생성 (CQG) 모델의 경우, 결과를 BLEU와 entity-F1을 사용하여 평가합니다.
BLEU는 생성된 질문과 실제 질문 간의 4-gram 중첩을 계산하여 어휘적 관점에서 결과를 평가합니다.
명료한 질문에서 가장 교체되는 부분은 질문 템플릿에 채워진 엔터티 설명입니다.
따라서 우리는 결과를 평가하기 위해 이러한 엔터티 설명 위에 미세 평균 정밀도와 재현율을 계산하는 Entity F1을 추가로 구현합니다.

4.3 Implementation Details

"In-List" 관계 선택 모듈에서 모든 중요 매개변수 𝑝𝑥와 스케일 매개변수 𝑘𝑥는 (0, 1] 범위 내에서 0.1 단위로 그리드 서치를 통해 결정됩니다.
구체적으로, 먼저 1,000개의 보류 중인 쿼리와 해당 항목을 샘플링합니다.
"In-List" 관계를 추출한 품질을 측정하기 위해 각 매개변수 조합에 대해 추출된 "In-List" 용어가 실제 항목에서 발생하는 빈도를 계산하고 최상의 매개변수를 선택합니다.
이 프로세스를 통해 "In-List" 관계 선택 모듈이 측면 항목에 관한 정보를 추출하는 데 효과적임을 보장합니다.
또한 섹션 3.7.1에서 사용된 "In-List" 관계를 선택하기 위한 네 가지 피쳐가 모두 추출된 "In-List" 관계의 품질에 긍정적인 영향을 미치도록 보장합니다.
섹션 3.7에서 언급된 하이퍼파라미터 𝑥와 𝑦는 둘 다 최대 다섯 개의 항목을 포함하는 실제 항목 집합을 고려하여 직관적으로 5로 설정됩니다.
BART 기반 모델의 모든 학습 가능한 매개변수는 사전 학습된 BART-base 모델로 초기화됩니다.
모든 실험에서 배치 크기는 8로 설정되고 입력 길이는 768로 설정되며 최대 출력 길이는 64로 설정됩니다.
입력의 서로 다른 부분을 구별하기 위해 이전 연구 [30]를 따라 사용자 쿼리 𝑞와 문서 𝐷를 "[SEP]"라는 특수 토큰을 사용하여 연결하며, 𝑞 [SEP] 𝑑1 [SEP] 𝑑2 [SEP] ... [SEP] 𝑑𝑘로 나타냅니다.
디코더 부분에서 모델은 명료한 질문 𝑄를 생성하거나 𝑆1 [SSEP] 𝑆2 [SSEP] ... [SSEP] 𝑆𝑁으로 측면 항목을 하나씩 생성합니다.
우리는 손실 함수를 최적화하기 위해 학습률이 2 × 10^(-5)인 AdamW 옵티마이저를 사용합니다.

4.4 Experimental Results (RQ1)

RQ1에 대한 답을 찾기 위해 aspect items generation 과 clarifying question generation에 대한 실험 결과를 각각 표 1과 표 2의 상단에 보고하고 결과를 분석한다.

4.4.1 Aspect Items Generation.

측면 항목 생성에 대해, 우리는 세 가지 그룹의 기준선 방법을 비교합니다:
(1) QDist [44], QFI, QFJ [18], 및 QDMiner [7]는 쿼리 특성을 마이닝하기 위한 기반 규칙 또는 기계 학습 기반의 네 가지 방법입니다.

이들 방법은 검색 결과의 목록 구조 정보를 활용하지만 구조화되지 않은 텍스트와 결합하지 않습니다.

(2) NMIR [10]는 쿼리의 여러 표현을 학습하여 항목을 생성하지만 구조화된 관계를 활용하지 않습니다.
(3) 측면 항목을 얻기 위한 네 가지 유형의 PLM 기반 모델 [30]을 포함하여, 생성, 라벨링, 분류 및 추출을 위한 모델입니다.

이러한 모델 중에서 우리는 주로 BART 생성 모델 (표 1의 BART-𝑞𝐷)을 비교합니다.
이 모델은 항목 생성을 위한 입력으로 연결된 쿼리와 스니펫 텍스트만 사용하며, 추출된 구조화된 관계의 효과를 입증하기 위한 것입니다.

표 1은 실험 결과를 보고합니다.
첫 번째이자 가장 중요한 결론은 우리가 제안한 모델이 거의 모든 평가 지표에서 기존의 기준선을 능가한다는 것입니다.

이러한 평가 지표에는 용어 및 정확한 일치 메트릭스, n-그램 메트릭스 및 의미 메트릭스가 포함됩니다.
더욱이, 대부분의 메트릭스가 𝑝-값이 0.05 미만인 t-검정을 통과하며 개선 사항의 중요성을 나타냅니다.
결과는 우리가 제안한 모델이 다른 PLM 기반 모델이나 전통적인 추출 모델과 비교하여 더 만족스러운 측면 항목을 생성하는 데 효과적임을 보여줍니다.
특히, 우리 모델은 원래의 BART 모델 (표 1의 BART-𝑞𝐷)을 크게 능가하며, 이는 우리가 추출한 구조화된 정보로 향상된 스니펫이 순수한 스니펫 텍스트와 비교하여 측면 항목을 더 효과적으로 마이닝하고 생성하는 데 더 효과적임을 나타냅니다.

반면, 우리 모델은 Set-BERTScore 메트릭스에서는 큰 개선을 보이지 않습니다.

최적의 기준선인 BART-𝑞𝐷와 비교하여 이 메트릭스의 F1 점수는 0.004만 증가했고, 정밀도는 조금 감소했습니다.
이는 구조화된 정보가 원래의 스니펫 텍스트와 비교하여 의미 유사성에 중요한 개선을 가져오지 않는다는 것을 나타냅니다.
이것은 이전의 세 가지 메트릭스와는 다른 결과입니다.

그러나 우리는 Set BERT-core의 개선이 항목의 품질 개선을 완전히 대표하지 않는다고 주장합니다.

예를 들어, 쿼리 "google chrome exe"는 두 개의 항목 그룹에 해당할 수 있습니다: 𝑆1: [32 비트, 64 비트], 𝑆2: [Windows, Linux, MacOS].
이 두 개의 항목 그룹은 대략적으로 동일한 Set BERT-score를 가지지만, 𝑆1은 실제 항목이며 𝑆2는 하위 최적으로 간주됩니다.

요약하면, 우리는 구조화된 정보로 생성된 결과가 일반 텍스트로 생성된 결과보다 현저히 우수하다고 판단하며, 이로써 제안한 아이디어와 모델의 효과를 입증합니다.
또한 구조화된 정보를 활용하는 전통적인 추출 방법 (QDist, QFI, QFJ 및 QDMiner를 포함)과 비교하여 스니펫을 활용하는 신경망 모델 (NMIR, BART 등)은 거의 모든 평가 지표에서 압도적인 이점을 얻을 수 있다는 점을 알아봅니다.
결과는 전통적인 기계 학습이나 인간이 설계한 기능을 활용하는 것과 비교하여 스니펫과 같은 풍부한 문맥 정보를 포함하는 비구조화 데이터도 쿼리 의도를 추출하는 데 중요하다는 것을 보여줍니다.
우리가 제안한 모델은 비구조화 스니펫과 구조화된 데이터의 장점을 결합하여 결과에 추가적으로 효과적인 긍정적인 영향을 미치는 것입니다.

4.4.2 Clarifying Question Generation.

clarifying question generation에 대해서는 몇 가지 기본 clarifying question selection (CQS), clarifying template selection (CTS) 및 clarifying question generation (CQG) 기준선을 비교합니다.
그런 다음 TG-ClariQ [39]와 같은 질문 템플릿 선택 및 슬롯 채우기를 위한 멀티태스크 아키텍처인 우리가 제안한 모델을 비교합니다.
우리는 이러한 기준선과 일관된 훈련 및 평가 데이터를 사용합니다.
표 2에서 볼 수 있듯이, 먼저, 우리 모델은 최고의 기준선과 비교하여 정확도와 MRR@3에서 약간의 개선을 보이며, 이로써 우리가 제안한 생성 모델이 템플릿 선택에서 선택 모델 (TG-ClariQ-BERT)과 일치하거나 심지어 선택 모델을 능가할 수 있다는 것을 나타냅니다.
그러나 질문 템플릿에 채워질 적절한 설명을 생성하는 것이 더 중요하고 어려운 과제이며, 이는 BLEU와 Entity-F1이 생성된 질문의 전체적인 품질을 더 잘 평가할 수 있다는 것을 의미합니다.
BLEU와 Entity-F1 결과에 따르면, 우리가 제안한 모델은 BLEU가 60.49에서 71.56으로 상승하고, Entity-F1이 0.788에서 0.835로 상승하며, 기존의 최고 기준선을 크게 능가한다는 것을 효과적으로 증명합니다.
이러한 결과는 추출된 구조화된 정보가 고품질 명료한 질문을 생성하는 데 기여한다는 것을 효과적으로 입증합니다.

4.5 Co-generation of Items and Questions (RQ2)

4.4절에서는 generated items and questions의 품질을 독립적으로 평가하는 데 중점을 두었습니다.
그러나 실제 시스템에서 항목 𝑆와 질문 𝑄를 통합하는 것도 중요합니다.
이는 질문이 이러한 항목을 정확하게 명료화해야 함을 의미합니다.
그러나 항목과 질문을 별도로 생성하면 co-occurrence information를 잃어버려 일관되지 않은 clarification panes을 생성할 수 있습니다.
예를 들어 쿼리 "watches"의 경우 생성된 항목은 [Omega, Casio, Citizen, Rolex, Cartier]이고 생성된 질문은 "Who are you shopping for?"입니다.

이는 감독 데이터가 𝑄와 𝑆의 상호 작용 정보를 동시에 포함하지 않기 때문입니다.
이 문제를 해결하기 위해 디코더 측에서 감독 학습 데이터를 쉽게 변경하여 모델이 명료한 질문과 측면 항목을 순차적으로 디코딩할 수 있도록 할 수 있습니다.

이를 달성하는 두 가지 방법이 있습니다.
먼저 질문을 생성한 다음 "𝑄 [QSEP] 𝑆1 [SSEP] ... [SSEP] 𝑆𝑘"와 같이 여러 항목을 따라 생성하는 방법이 있습니다 (Our-QS로 표시됨).
또한, 먼저 여러 항목을 생성한 다음 "𝑆1 [SSEP] ... [SSEP] 𝑆𝑘 [QSEP] 𝑄"와 같이 질문을 따라 생성하는 방법이 있습니다 (Our-SQ로 표시됨).

즉 target은 question, facet을 연결한 것인데, question;facet이냐 facet;question냐의 차이

이전에 생성된 항목과 질문과 비교하기 위해 여전히 섹션 4.2에서 언급한 평가 데이터와 지표를 사용하여 생성된 항목 및 질문을 평가합니다.
결과는 각각 표 1과 표 2에 기록됩니다.

ours은 하나만 생성
즉 table1에서의 ours은 facet generation만 학습한 것
ours-QS는 question;facet으로 학습한 것

실험 결과는 먼저, 항목을 별도로 생성하는 것과 비교하여 공동 생성 결과는 이러한 자동 평가 메트릭스에서 약간의 변동을 보이지만 그 영향은 크지 않다는 것을 보여줍니다.

질문의 경우, 결과는 정확도와 엔터티 F1에서 약간의 상승과 MRR@3에서 약간의 감소를 보입니다.
또한, 항목과 질문을 생성하는 순서는 결과에 미미한 영향을 미칩니다.
일반적으로 𝑄 및 𝑆의 공동 생성 및 두 개의 생성 순서는 실험 결과에 미미한 영향을 미칩니다.

반면, 항목과 질문을 별도로 평가하는 것은 그들의 일관성을 무시합니다.
예를 들어, 쿼리 "apple"의 경우 [company, fruit, film]와 [ipad, iPhone, macbook] 모두 좋은 항목 집합입니다.

그러나 모델은 전자의 항목 집합을 생성한 다음 "apple의 어떤 제품을 찾고 있나요?"라는 질문을 할 수 있으며, 이는 후자의 항목 집합에 더 적합합니다.
이 상황에서 생성된 항목과 질문이 모두 고품질이지만, 이들은 일관되지 않으며 현실 세계의 대화 검색 시스템에 제공하기에 만족스럽지 않습니다.
따라서 우리는 여러 항목과 질문의 전체 명료화 창의 전반적인 품질을 더 평가하려고 합니다.

이를 달성하기 위해, 우리는 평가 세트에서 무작위로 200개의 쿼리를 샘플링했습니다.
각 쿼리에 대해 세 가지 창을 생성했습니다:

(1) 우리 제안 모델에 의해 별도로 생성된 𝑄 및 𝑆 (Our),
(2) Our-QS에 의해 생성된 𝑄 및 𝑆,
(3) Our-SQ에 의해 생성된 𝑄 및 𝑆.

우리는 세 명의 주석 작업자를 고용하여 수동으로 최상의 창을 선택하도록 했으며, 최종 우승자는 주요 투표에 의해 결정되었습니다.
23%의 상황에서 세 가지 방법이 동일한 창을 생성하므로 이러한 결과는 "Tie"로 표시됩니다.
승패 상황은 표 3에 표시되어 있습니다.
대부분의 경우 (Our-QS의 경우 31.0%, Our-SQ의 경우 32.5%), 공동 생성 모델은 별도로 생성된 결과보다 통합된 명료화 창을 더 많이 생성할 수 있으며 별도로 생성된 결과는 데이터의 13.5%에서만 우승합니다.
이 결과는 공동 생성 패러다임이 명료화를 위한 온라인 검색 엔진에 더 적합하다는 것을 보여줍니다.
즉 Ours-SQ, Ours-QS는 joint하게 학습했으나, 평가는 Q와 S에 대해 각각 진행되기 때문에 엄밀한 평가가 아닐 수 있음

따라서 통합한 clarification panes 으로 평가를 사람으로 진행
clarification panes 은 아마 query에 대해 question과 facet이 모두 보여지는 형태를 말하는 것일듯
암튼 그랬을 때, Our보다 Our-QS or Our-SQ가 더 좋다!

4.6 Ablation Studies (RQ3)

우리가 제안한 모델은 “In-List” relation, “Is-A” relation, relation selection module 및 two-granularity visible matrix와 같은 여러 중요한 구성 요소로 구성되어 있습니다.
이러한 모듈은 BART-base 모델 위에 직접 구성됩니다.
따라서 결과에 대한 이러한 모듈의 별도 효과를 명확하게하는 것이 매우 중요합니다 (RQ2).
이를 위해 위의 네 가지 모듈을 각각 간략히 제거한 다음 제거에 대한 모든 평가 지표를 다시 계산합니다.
항목 및 질문의 결과는 "w/o"로 시작하며 이후에 모듈 이름이 따릅니다.
제거 실험 결과는 "In-List" 관계를 제거한 후 항목 생성이 모든 평가 지표에서 심각하게 감소하고,
명료한 질문 생성 결과도 약간 영향을 받았음을 보여줍니다.
결과는 직관적입니다.
"In-List" 관계가 주로 측면 항목 생성에 도움이 되는 것으로 가정하고 실험 결과는 이것이 항목 생성뿐만 아니라 명료한 질문 생성에도 도움이 되는 것을 더 증명합니다.
"Is-A" 관계를 제거하면 항목 생성의 평가 지표는 크게 변화하지 않지만, 명료한 질문 생성은 네 가지 메트릭스에서 어느 정도 감소합니다.

이것은 "Is-A" 관계가 주로 질문에 어느 정도 영향을 미치지만 항목에는 별다른 영향을 미치지 않는 것으로 나타납니다.

관계 선택 모듈을 제거하면 추출된 원래 목록과 "Is-A" 설명에서 관계를 가중치와 선택 없이 직접 샘플링하게 되므로 많은 노이즈가 발생할 수 있습니다.

측면 항목 및 명료한 질문의 결과는 모두 크게 감소합니다.
특히 항목 생성의 경우 관계 선택 프로세스를 제거한 후 우리가 제안한 모델은 항목 생성을 위해 원래 BART 모델보다 나쁜 성능을 보이며 대부분의 질문을 평가하는 메트릭스도 크게 하향 조정됩니다.
이는 필터되지 않은 "In-List" 및 "Is-A" 관계에 항목 및 질문과 관련이 없는 많은 정보가 포함되어 있어 불필요한 노이즈를 도입하기 때문입니다.
따라서 모델 입력에는 많은 유용한 정보가 포함되지 않으며 생성을 도와주지 않고 부정적인 효과를 가져올 수 있습니다.

마지막으로 가시성 매트릭스 M을 모두 0으로 채우는 행렬로 변경합니다.

이는 전체 입력의 각 토큰이 서로를 볼 수 있는 것을 의미합니다.
이로 인해 측면 항목 및 명료한 질문의 모든 메트릭스가 약간 감소합니다.
이는 입력 데이터의 가시성 조정이 효과적이며 구조화된 관계의 통합으로 인한 노이즈를 줄일 수 있다는 것을 보여줍니다.

5 CONCLUSION

본 논문에서는 검색 결과에서 추출한 구조화된 정보를 사용하여 명확화 패널을 생성하는 연구를 수행합니다.
"In-List" 관계와 "Is-A" 관계 두 가지 종류의 관계를 설계하여 구조화되지 않은 검색된 문서 텍스트를 향상시키는 보완책으로 활용합니다.
그런 다음, BART 인코더를 적용하여 향상된 텍스트를 모델링하고 항목 및/또는 질문을 생성합니다. 노이즈가 있는 관계를 걸러내기 위해 우리는 중요도 점수에 따라 관계를 선택하는 규칙 기반의 관계 선택 모듈을 설계했습니다.
또한 두 종류의 관계를 BART 인코더에 통합하기 위해 두 단계의 가시성 행렬을 설계했습니다.
MIMICS 데이터셋에서의 실험 결과는 우리가 제안한 방법이 여러 평가 메트릭에서 강력한 기준에 비해 더 높은 품질의 명확화 패널을 생성할 수 있음을 보여줍니다.
또한 통합 명확화 패널을 제공하기 위해 항목과 질문을 동시에 생성하는 시도를 하였으며, 이는 온라인 시스템에 중요합니다.
마지막으로, 우리가 제안한 각 구성 요소의 유용성을 증명하기 위해 퇴각 연구를 수행했습니다.

Reference

https://dl.acm.org/doi/pdf/10.1145/3580305.3599389

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-191, Improving Search Clarification with Structured Information Extracted from Search Results, KDD 2023

◼ Comment

0 Abstract

1 INTRODUCTION

2 RELATED WORK

3 METHODS

3.1 Structured Information in Search Results

3.2 Framework

3.3 Obtaining Search Result Documents

3.4 Obtaining List Structures

3.5 “In-List” Relation Extraction

3.6 “Is-A” Relation Extraction

3.7 Relation Selection

3.7.1 “In-List” Relation Selection.

3.7.2 “Is-A” Relation Selection.

3.7.3 Relation Re-sampling.

3.8 BART-based Generation Model

3.8.1 Intra-document Matrix

3.8.2 Cross-document Matrix

4 EXPERIMENTS

4.1 Dataset

4.2 Evaluation Metrics

4.3 Implementation Details

4.4 Experimental Results (RQ1)

4.4.1 Aspect Items Generation.

4.4.2 Clarifying Question Generation.

4.5 Co-generation of Items and Questions (RQ2)

4.6 Ablation Studies (RQ3)

5 CONCLUSION

댓글

댓글 쓰기