NL-173, MIMICS: A Large-Scale Data Collection for Search Clarification, CIKM 2020 (Resource Track)
◼ Comment
- search clarification이란 분야에 대해 처음으로 읽은 논문이라 완벽히 이해못한듯하다.
- 쉽게 말해서, 웹에서 쿼리를 검색했을 때 그 쿼리가 애매모호한 경우가 많다는 것이다.
- 따라서 쿼리가 ~~~한 것을 검색한게 맞습니까? 라는 식으로 question을 날리고, 그에 맞는 candidate answers까지 보여주는 형식의 데이터를 만든 것이다.
- 이 데이터는 Bing 검색 로그를 이용해서 수집했지만, 구글에서 간단히 검색을 해보자
- 위와 같이 "관련 질문" = "question"이 되는 것이고, 아래 5개가 "candidate answer"이 되는 것이다.
- 여기서는 간단히 관련 질문이라 했지만 실제로 다양한 question이 있을 수 있다.
- 여기서 이러한 question, candidate을 설명창이라고 한다. (search calrification)
- 3가지 형식의 데이터를 구축한다.
- MIMICS-Click이 가장 기본적으로 수집한 데이터이고
- MIMICS-ClickExplore은 확장한 느낌인데, query당 여러 설명창이 후보가 될 수 있는 것이다.
- 위 2개는 걍 로그를 이용해서 만든 데이터로, label이 클릭률이 된다.
- impression level은 노출이 얼마나 됐는지를 보여준다.
- 내부 시스템으로 question이 얼마나 보여지는지 정해질거 같은데..
- 아무튼 데이터를 수집한 상태에서 얼마나 question이 자주 등장하는 것이냐? 이런 개념이다.
- engagement level은 clarification(question-candidate)가 주어질때 사용자가 얼마나 반응하냐? 이런 것이다.
- MIMICS-Manual은 각 쌍에 대해 직접 손수 레이블링한 것이다.
- query: 질의
- question: 그 질의를 명확하게 하기위한 질문
- option: 질문에 대한 여러 옵션 (선택할 수 있는 버튼)
- impression_level:
- 수준은 주어진 쿼리-설명 쌍이 사용자에게 제시된 횟수를 기반으로 계산됩니다.
- impression 수준은 쿼리 빈도와 상관 관계가 있어야 합니다.
- Its value is either ’low’, ’medium’, or ’high’.
- engagement level 0은 clarification 창을 클릭하지 않았음을 의미합니다. --> cctr들은 0
- engagement level은 사용자가 얼마나 option을 클릭했는지(반응) 보는 것으로 1~10 점수
- option_cctr
- 각 후보 답변에 대한 조건부 클릭 확률입니다. total_ctr이 0이 아닌 한 합이 1이어야 합니다. 이 경우 모두 0입니다.
- question_label
- 후보 답변과 독립적인 clarifying question과 관련된 레이블입니다.
- 요약하면 가이드라인은 Good clarifying question은 쿼리의 다양한 의도를 정확하게 다루고 명확히 해야 함을 나타냅니다.
- 유창하고 문법적으로 정확해야 합니다.
- 즉 question이 얼마나 좋은가?
- 레이블은 2 (Good), 1 (Fair), or 0 (Bad)
- options_overall_label
- candidate answer set에 지정된 전체 레이블입니다.
- 즉 options 후보들이 얼마나 괜찮은가에 대한 레이블?
- 레이블은 2 (Good), 1 (Fair), or 0 (Bad)
- option_label
- 방문 검색 결과 페이지의 품질을 기준으로 각 개별 후보 답변에 할당된 레이블입니다.
- 이를 이용해 다양한 테스크들을 제안한다. (section 5)
0 ABSTRACT
- Search clarification은 서치 엔진들에서 어플리케이션떄문에 많은 관심을 받고 있다.
- 이것은 또한 대화형 informatino seeking system에서 중요한 요소로써 인식되고 있다.
- 중요함에도 불구하고, 연구 커뮤니티들은 search clarification의 다양한 관점을 연구하는데에 large-scale dataset의 부족함을 느낀다.
- 이 논문에서, 우리는 MIMICS을 소개하고, 이는 Bing query logs으로부터 샘플링된 web search queries을 위한 search clarification datasets의 집합이다.
- MIMICS의 각 clarficiation은 Bing production 알고리즘으로부터 생성되고 clarifying question과 최대 5개의 candidate answers로 구성된다.
- MIMICS contains three datasets:
- (1) MIMICS-Click은 400k unique queries, 그들의 관련된 설명창, 그에 해당하여 집계된 user interaction signals (ex. clicks)을 포함한다.
- (2) MIMICS-ClickExplore은 60k unique queries이상의 집계된 user interaction signals을 포함한 탐색 데이터이고, 각각에는 여러 설명창(clarification panes)이 있다.
- (3) MIMICS-Manual은 2k unique real search queries을 넘게 포함한다.
- 데이터세트에서 각 query-clarification pair은 최소 3명의 숙련된 어노테이터들에 의해 손수 레이블링되었다.
- 여기는 clarifying question, candidate answer set, 각 candidate answer을 위한 landing result page에 대한 등급이 매겨진 퀄리티 레이블들을 포함되어 있다.
- MIMICS은 연구 목적으로 공개됐으며, 그래서 연구자들이 search clarification와 연관된 많은 테스크들을 연구할 수 있다.
- clarification generation, selection
- user engagement prediction for clarification
- click models for clarification
- analyzing user interactions with search clarification
- 또한 MIMICS의 모든 쿼리에 대해 Bing의 웹 검색 API에서 반환된 결과를 공개합니다.
- 이를 통해 연구자들은 search clarification과 관련된 작업에 검색 결과를 활용할 수 있습니다.
1 INTRODUCTION
- Search clarification는 서치 엔진들에서 특히 ambiguous and faceted (많은 뜻을 가진?) queries에 대해 user experience을 향상시키기위한 유용한 features로써 최근 인식되어왔다.
- 추가적으로, mixed-initiative conversational search systems을 개발하는 방향으로 필요한 스텝으로 확인되었다.
- 그 이유는 speech-only and small-screen devices와 같은 많은 대화형 시스템들에서 제한된 bandwidth 인터페이스가 사용됐기 때문이다.
- 이는 ambiguous or faceted queries 케이스에서 유저들이 여러 documents을 검토하는 것은 어렵거나 불가능하기 때문이다.
- 이것은 최근 연구자와 실무자들이 질문을 함으로써 사용자 정보 요구를 명확히 하기 위한 가능한 접근법을 조사하도록 동기를 부여했습니다 [1, 29].
- search clarification의 최근 진행에도 불구하고, 커뮤니티는 여전히 search clarfication을 위한 large-scale dataset의 부족을 느끼고 있고, 이는 이 도메인에서 연구 진행을 스피드업하는데 필요한 것이다.
- 이러한 이슈를 해결하기 위해, 우리는 MIMICS을 소개하고, 이는 search clarification을 위한 여러 데이터세트들로 구성된 데이터 모음이다.
- MIMICS에서 각 clarification은 clarifying question과 최대 5개 candidate answers로 구성된다.
- Figure 1 shows the interface used for clarification in Bing for constructing this data.
- 첫 번째 데이터세트는 (MIMICS-Click) Bing의 쿼리 로그들에서 샘플링된 400K unique search queries와 각각에 연관된 single clarification 창을 포함한다.
- 데이터세트는 또한 집계된 user interaction signals을 포함한다.
- 여기서 user interaction signals은 각각의 candidate answers에 대한 전체 user engagement level과 conditional click-through rate이다.
- 즉 그림 1이 예제인데, 하나의 clarification와 이중 무엇을 클릭했는지, 얼마나 눌렀는지 등에 대한 정보도 포함한다는 듯?
- clarification은 앞부분에서 bing 알고리즘에 의해 생성된다고 써있음.
- 두 번째 데이터세트는 (MIMICS-ClickExplore) 64k queries을 포함하고, 각각은 multiple clarification 창을 가지고, 이 창은 multiple exploration과 online randomization experiments의 결과이다.
- 이 데이터세트는 또한 집계된 user interaction signals을 포함한다.
- 세 번째 데이터세트는 , 반대로 trained annotators에 의해 손수 레이블링된 것이다.
- 이 데이터세트는 MIMICS-Manual이라 불리고, clarifying question, candidate answer set, 각 개별 answer에 대한 랜딩 결과 페이지의 평가된 퀄리티 레이블들을 포함한다.
- MIMICS의 일부로 생성된 데이터 세트는 search calrification와 관련된 다양한 테스크들의 학습과 평가에 사용된다.
- 테스크들은 다음과 같이 있다.
- generating/selecting clarifying questions, candidate answers
- re-ranking candidate answers for clarification
- click models for search clarification
- user engagement(사용자참여) prediction for serach clarification
- analyzing user interactions with search clarification
- 또한 MIMICS의 모든 쿼리에 대해 Bing의 웹 검색 API에서 반환한 검색 결과를 공개하여 연구원이 언급된 search clarification tasks에 search result pages의 콘텐츠를 사용할 수 있도록 합니다.
- 이 논문은 또한 이러한 작업에 대한 몇 가지 평가 방법론과 지표를 제안합니다.
2 RELATED WORK
- Clarification은 음성 인식, 대화 시스템 및 커뮤니티 질문 답변과 같은 여러 응용 프로그램에서 탐색되었습니다.
- 최근 정보 검색 문헌에서 많은 주목을 받고 있다.
- 예를 들어 Kiesel은 음성 쿼리 설명이 사용자 만족도에 미치는 영향을 조사했습니다.
- 그들의 연구에 따르면 사용자는 설명을 요구하는 메시지를 받는 것을 좋아합니다.
- 개체 명확화와 같은 간단한 형식의 설명이 Coden에서 탐색되었습니다.
- 그들은 기본적으로 "A 또는 B를 의미했습니까?"라고 묻습니다.
- 엔터티 모호성을 해결하기 위한 질문입니다.
- 더 일찍 Allan은 TREC 2004에서 참가자들의 설명이 포함된 HARD 트랙을 조직했습니다.
- 더 자세히 설명하면 참가자는 제출 실행 외에도 human-generated clarifying questions이 포함된 양식을 제출할 수 있습니다.
- 최근 Aliannejadi는 대화형 정보 검색 시스템의 맥락에서 설명을 연구할 것을 제안했습니다.
- 이것은 나중에 대화 검색에 관한 Dagstuhl 세미나에서 대화 검색의 중요한 측면으로 강조되었습니다.
- 보다 최근에 Zamani는 웹 검색의 맥락에서 clarification을 도입하고 공개 도메인 검색 쿼리에 대한 clarifying questions and candidate answers을 생성하기 위한 모델을 제안했습니다.
- 후속 연구에서 Zamani는 Bing의 설명 창과 사용자 상호 작용을 분석하고 검색 설명의 맥락에서 사용자 행동 및 클릭 편향에 대한 통찰력을 제공했습니다.
- 또한 Hashemi는 대화형 검색 시스템에서 설명에 대한 사용자 응답을 활용하기 위한 표현 학습 모델을 제안했습니다.
- 위에서 검토한 최근 진행 상황에도 불구하고 search clarification을 위해 공개적으로 사용할 수 있는 대규모 리소스는 없습니다.
- 우리가 아는 한, Qulac은 검색 설명에 중점을 둔 유일한 공개 데이터 세트입니다.
- 이것도 읽어봐야할 듯?
- 그러나 여기에는 TREC 웹 트랙 2009-2012에서 차용한 200개의 고유 쿼리만 포함되어 있습니다.
- 따라서 수백만 개의 매개변수가 있는 많은 수의 기계 학습 모델을 교육하는 데는 충분하지 않습니다.
- 또한 크라우드 소싱을 통해 구축되었습니다.
- 따라서 clarifications은 사람이 생성한 것이며 실제 시나리오의 설명에 대한 user responses은 Qulac의 것과 다를 수 있습니다.
- 또한 clarifications이 있는 커뮤니티 질문 답변 데이터 및 제품 카탈로그가 많이 있지만(예: [24] 참조) 검색 설명과 근본적으로 다릅니다.
- 따라서 이 논문은 현실성, 크기, 다양성, 설명 유형, 사용자 상호 작용 신호 및 적용 범위 (realisticness, size, diversity, clarification types, user interaction signals, and coverage) 측면에서 고유한 리소스를 제공합니다.
- 사실상, search clarification을 연구하기 위한 많은 데이터로써 처음이다
- 최근 대화형 검색과 관련된 많은 데이터셋이 생성 및 공개되었다는 점은 주목할 가치가 있습니다.
- 여기에는 CCPE-M[21], CoQA[25], QuAC[7], MISC[27] 및 TREC 2019[12]에서 생성된 대화 지원 트랙 데이터가 포함됩니다.
- 이러한 데이터 세트는 특별히 설명에 초점을 맞추지 않지만 향후 연구에서 사용할 수 있는 MIMICS와 데이터 사이에 일부 연결이 있을 수 있습니다.
- 또한 ORCAS[9]와 같은 공개 검색 엔진 로그는 추가 조사를 위해 MIMICS와 함께 사용될 수 있습니다.
- 이는 쿼리 제안 및 쿼리 자동 완성과 관련된 데이터 세트에도 적용됩니다.
3 DATA COLLECTION
- Bing은 최근에 clarification 창을 다소 모호하고 헷갈리는 queries들 때문에 결과 페이지에 추가하였다.
- 이것은 오른쪽 아래 search bar와 위쪽에 결과 리스트들이 있다.
- 실제로 해보면, 위쪽에 자주 묻는 질문이라고 해서 되어있기도 하고 아래쪽에 "쿼리"에 대한 검색이라고 여러 bar들이 보인다.
- 각 clarfication 창은 clarifying question과 5개의 candidate answers을 포함한다.
- 이 기능에 대한 유저 인터페이스는 그림1에서 보여준다.
- 현재 서비스되는 것은 조금 다른 듯
- clarifying questions과 candidate answers은 많은 내부 알고리즘과 머신러닝 모델들을 사용하여 생성되어왔다.
- 그들은 주요 서치 엔진(즉. query reformulation and click), content analysis, taxonomy of entity types and relations과의 유저의 과거 상호작용을 기반으로 생성된다.
- clarification 창들을 생성하기 위한 더 많은 정보를 위하여, 우리는 Zamani의 작업을 독자에게 소개한다.
- 이는 테스크를 위해 세 가지 룰 기반과 머신러닝 모델들을 포함한다.
- 이 논문에서 소개된 모든 데이터세트들은 같은 properties을 따르고 오직 en-US marktet queries을 보여준다.
- 다음 하위 섹션에서는 백서에 소개된 각 데이터 세트를 만들고 사전 처리한 방법을 설명합니다.
- 요약하면 MIMICS는 Bing의 유저 상호 작용(즉, 클릭)을 기반으로 하는 두 개의 데이터 세트(MIMICS-Click 및 MIMICSClickExplore)와 여러명의 훈련된 주석자가 clarification 창의 수동 주석을 기반으로 하는 하나의 데이터 세트(MIMICS-Manual)로 구성됩니다.
3.1 MIMICS-Click
- 2019년 9월에 Bing에 제출된 쿼리를 하위 샘플링했습니다.
- 검색 엔진 결과 페이지(SERP, search engine result page)에 clarification 창이 렌더링된 쿼리만 보관했습니다.
- 우리는 데이터 세트의 다양한 쿼리 및 clarification 유형을 다루기 위해 데이터 샘플링에 노력을 기울였으므로 논문에 발표된 engagement level이 Bing의 전체 클릭률을 나타내지는 않습니다.
- 개인 정보 보호를 위해 작년에 최소 40명의 사용자가 제출한 쿼리만 포함하여 𝑘-익명성을 따랐습니다.
- 또한 설명 창은 제출된 쿼리를 기반으로만 생성되었으므로 세션 및 개인화된 정보는 포함하지 않습니다.
- 독점(proprietary) 알고리즘을 사용하여 사용자의 개인 정보를 보호하기 위해 추가 필터링 단계를 수행했습니다.
- 민감하고 부적절한 콘텐츠는 데이터세트에서 자동으로 제거되었습니다.
- 클릭 데이터의 노이즈를 줄이기 위해 노출수가 10회 미만인 쿼리-설명 쌍을 제거했습니다.
- 즉, 데이터 세트에서 릴리스된 모든 쿼리-설명 쌍은 언급된 기간(즉, 한 달) 동안 Bing 사용자에게 최소 10번 제공되었습니다.
- 그 결과 각각 정확히 하나의 설명 창과 연결된 414,362개의 고유한 쿼리가 생성되었습니다.
- 그 중 71,188개의 설명이 긍정적인 클릭률을 받았습니다.
- The statistics of this dataset is presented in Table 1.
- 데이터 세트는 탭으로 구분된 형식(TSV)으로 릴리스됩니다.
- MIMICS-Click의 각 데이터 포인트는 query-clarification 쌍, impression level (노출 수준) (낮음, 중간 또는 높음), engagement level (0~10 사이) 및 각 개별 후보 답변에 대한 조건부 클릭 확률입니다.
- engagement level 0은 clarification 창을 클릭하지 않았음을 의미합니다.
- 동일한 깊이 방법을 사용하여 모든 긍정적인 클릭률을 10개의 bins (1에서 10까지)으로 나누었습니다.
- The description of each column in the dataset is presented in Table 2.
3.2 MIMICS-ClickExplore (번역)
- MIMICS-Click은 clarification 및 관련 연구 문제를 생성하는 방법을 학습하는 데 매우 귀중한 리소스이지만 연구자가 clarification과 사용자 상호 작용에서 click bias을 연구하는 것과 같은 일부 작업을 연구하는 것은 허용하지 않습니다.
- 따라서 이러한 흥미롭고 실용적인 작업에 대한 연구를 촉진하기 위해 2019년 9월 일부 탐색 및 무작위화 실험을 사용하여 MIMICS-ClickExplore를 만들었습니다.
- 더 자세히, 우리는 알고리즘에 의해 생성된 최고의 𝑚 clarifications을 사용하여 다양한 사용자 집합에 제시했습니다.
- 즉 clarification이 여러개고, 하나의 쿼리를 다양한 사용자들에게 적용한 듯?
- 동시에 동일한 쿼리에 대한 여러 설명 창과의 사용자 상호 작용을 통해 이러한 설명 창을 비교할 수 있습니다.
- 이러한 설명 창의 차이점은 clarification question, candidate answer set, candidate answers 순서 또는 이들의 조합에 있을 수 있습니다.
- 위에서 MIMICS-Click에 대해 논의한 것과 동일한 필터링 접근 방식을 수행하여 개인 정보 보호 문제를 해결했습니다.
- 다시 말하지만 최소 노출수가 10인 쿼리-설명 쌍만 유지했습니다.
- 결과 데이터 세트에는 64,007개의 고유 쿼리와 168,921개의 쿼리-설명 쌍이 포함되어 있습니다.
- 그 중 89,441개의 검색어 설명 쌍이 긍정적인 참여를 받았습니다.
- 이 데이터 세트의 형식은 MIMICS-Click과 동일합니다(표 2 참조).
- MIMICS-Click 및 MIMICS-ClickExplore의 샘플링 전략이 다르기 때문에 MIMICS-Click에서 낮은 노출수로 훨씬 더 많은 쿼리-설명 쌍이 생성되었습니다.
3.3 MIMICS-Manual (번역)
- 클릭은 search clarification을 포함하여 온라인 서비스에서 모델의 품질을 추정하기 위한 강력한 암시적 피드백 신호를 제공하지만 모든 품질 측면을 반드시 반영하는 것은 아닙니다.
- 또한 여러 가지 이유로 편향될 수 있습니다.
- 따라서 설명에 대한 포괄적인 연구에는 수동 사람의 주석을 기반으로 한 평가가 포함되어야 합니다.
- 이것은 우리가 훈련된 주석가가 수행한 수동 판단을 기반으로 MIMICS-매뉴얼을 만들고 릴리스하도록 동기를 부여했습니다.
- 따라서 실제 사용자 쿼리 집합에 대한 수동 주석을 수집하기 위해 쿼리 로그에서 임의로 쿼리를 샘플링했습니다.
- 쿼리는 섹션 3.1에서 검토한 모든 개인 정보 보호 문제를 충족합니다.
- 또한 동일한 알고리즘을 사용하여 각 쿼리에 대해 하나 이상의 설명 쌍을 생성했습니다.
- 각 쿼리-설명 쌍은 최소 3명의 주석자에게 할당되었습니다.
- 주석 작성자는 온라인 회의에 참석하고 포괄적인 지침을 읽고 연습하여 설명 창을 판단하도록 교육을 받았습니다.
- 다음에서는 쿼리-설명 쌍에 주석을 달기 위해 설계된 HIT(Human Intelligence Task)의 각 단계를 설명합니다.
- 이 지침은 이전에 [29, 30]에서 사용되었습니다.
3.3.1 Step I: SERP Review. (번역)
- Aliannejadi[1]와 유사하게 먼저 주석 작성자에게 Bing에서 반환된 검색 결과의 몇 페이지를 훑어보고 검토하도록 요청했습니다.
- 검색 엔진은 결과 목록을 다양화하려고 하기 때문에 주석 작성자가 주제의 범위와 제출된 쿼리 뒤에 있는 다양한 잠재적 의도를 더 잘 이해할 수 있습니다.
- 완료되면 사용자는 다음 단계로 이동할 수 있습니다.
3.3.2 Step II: Annotating the Clarifying Question Quality. (번역)
- 이 단계에서 주석 작성자는 후보 답변과 독립적으로 주어진 명확한 질문의 품질을 평가하도록 요청받았습니다.
- 따라서 주석 인터페이스는 이 단계에서 주석자에 대한 후보 답변을 표시하지 않습니다.
- 각 명확한 질문에는 2(좋음), 1(보통) 또는 0(나쁨) 레이블이 지정됩니다.
- 주석자에게는 각 레이블에 대한 자세한 정의, 지침 및 예가 제공되었습니다.
- 요약하면 가이드라인은 Good clarifying question은 쿼리의 다양한 의도를 정확하게 다루고 명확히 해야 함을 나타냅니다.
- 유창하고 문법적으로 정확해야 합니다.
- 질문이 이러한 요소 중 하나라도 충족하지 못하지만 여전히 허용 가능한 명확한 질문인 경우에는 보통 레이블을 지정해야 합니다.
- 그렇지 않으면 잘못된 레이블이 질문에 할당되어야 합니다.
- 질문에 민감하거나 부적절한 콘텐츠가 포함된 경우 주석에 의해 플래그가 지정되고 데이터 세트에서 제거됩니다.
- clarifying questions 대신 일반 템플릿이 있는 경우(즉, "select one to refine your search") 주석 작성자에게 question quality label을 제공하도록 요청하지 않습니다.
- 한 마디로, search qualification 질문에 대한 퀄리티 평가
3.3.3 Step III: Annotating the Candidate Answer Set Quality. (번역)
- clarifying question가 어노테이트되면 candidate answers이 HIT 인터페이스에 나타납니다.
- 이 단계에서 주석 작성자는 후보 답변 세트의 전반적인 품질을 판단하도록 요청받았습니다.
- 요약하면 주석 가이드라인은 candidate answer set가 명확성, 포괄성, 적용 범위, 이해 가능성, 문법, 다양성 및 중요도 순서에 대한 유용성을 기반으로 평가되어야 함을 나타냅니다.
- 이러한 각 제한 사항에 대한 명확한 정의는 지침에 언급되어 있습니다.
- 어노테이터는 1단계에서 결과 목록의 여러 페이지를 검토했으며 쿼리의 다른 가능한 의도를 알고 있어야 합니다.
- 다시 레이블은 2 (Good), 1 (Fair), or 0 (Bad)이며 민감하거나 부적절한 콘텐츠가 포함된 후보 답변은 데이터 세트에서 제거되었습니다.
- 후보 답변 세트가 앞서 언급한 모든 제약 조건을 충족하는 경우 Good 레이블을 지정해야 합니다.
- 한편, 적어도 하나의 제약 조건을 충족하지 않는 허용 가능한 후보 답변 세트에 Fair 레이블을 지정해야 합니다.
- 그렇지 않으면 Bad 레이블을 선택해야 합니다.
- 정의된 모든 속성은 최대 5개의 후보 답변으로 만족하기 어렵기 때문에 후보 답변 세트에 대해 레이블 Good이 거의 선택되지 않습니다.
- 한 마디로 후보 answer 세트에 대한 퀄리티 평가
3.3.4 Step IV: Annotating the Landing SERP Quality for Each Individual Candidate Answer. (번역)
- Zamani [29]는 최근 검색 명확화와 관련된 여러 사용자 연구를 수행했습니다.
- 인터뷰에서 참가자들은 (후보 답변을 클릭한 후) 보조 결과 페이지의 품질이 설명 창의 유용성을 인지했다고 언급했습니다.
- 이 관찰을 기반으로 우리는 주석 작성자에게 개별 후보 답변에 대한 보조 결과 페이지(또는 랜딩 결과 페이지)의 품질을 하나씩 평가하도록 요청했습니다.
- 따라서 주석 작성자는 각 개별 답변을 클릭하고 Bing에서 보조 결과 페이지를 관찰할 수 있습니다.
- SERP에는 여러 개의 direct answers, entity cards, query suggestion 등이 포함될 수 있습니다.
- 웹 페이지 목록 외에도 MRR(Mean Reciprocal Rank) 또는 NDCG(Normalized Discounted Cumulative Gain)[15]와 같은 문서 관련성에 기반한 순위 메트릭을 채택하는 것은 전체 SERP 품질을 평가하는 데 바람직하지 않습니다.
- 따라서 각 방문 SERP에 레이블은 2 (Good), 1 (Fair), or 0 (Bad)을 지정하도록 주석 작성자에게 다시 요청했습니다.
- 선택한 후보 답변 뒤에 필요한 모든 가능한 정보에 대한 정답을 페이지의 눈에 잘 띄는 위치(예: SERP an answer box on top of the SERP or the top three retrieved webpages)에서 쉽게 찾을 수 있는 경우 레이블 Good를 선택해야 합니다.
- 결과 페이지가 여전히 유용하고 관련 정보가 포함되어 있지만 답변을 찾기가 쉽지 않거나 SERP 상단에 없는 경우 Fair 레이블을 선택해야 합니다.
- 그렇지 않으면 방문 SERP는 Bad으로 간주되어야 합니다.
- 한 마디로 후보 답변을 선택했을 때, 나오는 결과 페이지들에 대한 평가
3.3.5 A Summary of the Collected Data. (번역)
- 각 HIT는 최소 3명의 주석자에게 할당되었습니다.
- 각 레이블 지정 작업에 대해 다수결 투표를 사용하여 주석을 집계했습니다.
- 의견이 일치하지 않는 경우 HIT가 더 많은 주석자에게 할당되었습니다.
- 우리의 주석은 2.4k 이상의 고유 쿼리와 2.8k 이상의 쿼리-설명 쌍을 생성했습니다.
- 데이터 세트의 통계는 표 1에 보고됩니다.
- 데이터는 탭으로 구분된 파일 형식(TSV)으로 공개되었습니다.
- 데이터의 각 열에 대한 설명은 표 3에 나와 있습니다.
4 DATA ANALYSIS
4.1 Question Template Analysis
- Zamani [29]는 적은 수의 질문 템플릿을 사용하여 대부분의 search clarifications을 해결할 수 있음을 보여주었습니다.
- 첫 번째 분석 세트에서는 MIMICS의 질문 템플릿과 해당 통계를 연구합니다.
- MIMICS-Click 및 MIMICS-ClickExplore 모두에서 최소 빈도가 100인 템플릿에만 초점을 맞춥니다.
- MIMICS-Click 및 MIMICS-ClickExplore에 대한 명확한 질문 템플릿당 평균 참여 수준을 계산합니다.
- 또한 수동 주석이 있는 MIMICS-Manual에 대한 템플릿당 평균 질문 품질 레이블을 계산합니다.
- 참여 수준은 [0, 10] 간격에 있는 반면 수동 주석 레이블은 [0, 2]에 있습니다.
- 결과는 표 4에 보고됩니다.
- 첫 번째 일반 템플릿은 수동 주석에서 제외됩니다.
- 결과에 따르면 MIMICS-Click 및 MIMICS-ClickExplore 모두에서 마지막 4개의 템플릿(T4 - T7)이 T1, T2 및 T3에 비해 더 높은 참여를 유도했습니다.
- 또한 일반적으로 데이터 세트에서 덜 빈번하고 더 구체적입니다.
- 일반적으로 exploration 데이터 세트는 MIMICS-Click에 비해 평균 참여도가 더 높습니다.
- 그 이유는 MIMICS-Click에서 참여가 0인 쿼리-설명 쌍의 수가 MIMICS-ClickExplore보다 많기 때문입니다(표 1 참조).
4.2 Analyzing Engagement Based on Clarification Impression
- 섹션 3에서 언급했듯이 MIMICS-Click 및 MIMICS-ClickExplore에는 쿼리-설명 쌍당 3단계 impression 레이블이 포함되어 있습니다.
- impression 수준은 주어진 쿼리-설명 쌍이 사용자에게 제시된 횟수를 기반으로 계산됩니다.
- impression 수준은 쿼리 빈도와 상관 관계가 있어야 합니다.
- 표 5에 결과가 보고된 노출 수준당 참여의 평균 및 표준 편차를 계산합니다.
- 결과에 따르면 노출 수준에 따른 average engagements 사이에는 무시할 수 있는 차이가 있습니다.
- engagements 범위(즉, [0, 10])가 주어지면 MIMICS-ClickExplore에서 노출수가 높은 쿼리-설명 쌍은 평균 engagements가 약간 낮아졌습니다.
4.3 Analysis Based on Query Length
- 세 번째 분석에서는 쿼리 길이와 관련하여 사용자 참여 및 수동 품질 레이블을 연구합니다.
- 이를 위해 공백 문자를 구분 기호로 사용하여 쿼리를 분할하여 쿼리 길이를 계산합니다.
- 결과는 표 6에 보고되어 있습니다.
- MIMICS-Click 및 MIMICS-ClickExplore의 결과에 따르면 평균 참여도는 쿼리가 길어질수록 증가합니다.
- 데이터를 보면 긴 쿼리는 종종 자연어 질문이고 짧은 쿼리는 키워드 쿼리라는 것을 알 수 있습니다.
- 놀랍게도 이것은 single word queries가 더 높은 question quality, answer set quality 및 랜딩 페이지 품질을 가지고 있다고 제안하는 manual annotations과 일치하지 않습니다 (데이터 세트에서 빈도가 10 미만인 드문 쿼리 제외).
- 이 관찰은 설명에 대한 사용자 참여가 반드시 clarification 품질과 일치하지 않는다는 것을 시사합니다.
- 더 긴 쿼리를 제출하는 사용자의 행동은 keyword queries로 검색하는 사용자와 다를 수 있습니다.
- MIMICS-Click 및 MIMICS-ClickExplore에서는 쿼리가 길 수록 참여도가 높아짐
- 즉 자연어 질문이 키워드 쿼리보다 참여도를 높인다고 볼 수 있음
- 사람이 어노테이션한 결과에서는 한 단어 쿼리들의 quesion quality, answer set quality, 랜딩 페이지의 품질이 좋다고 나왔었음.
- 즉 clarification 품질은 짧은 단어가 좋으나, 참여도는 낮은 결론이 나왔다는 것.
4.4 Analysis Based on the Number of Candidate Answers
- 앞에서 지적했듯이 데이터의 후보 답변 수는 2개에서 5개 사이로 다양합니다.
- 후보 답변 수의 영향을 입증하기 위해 참여 수준의 평균 및 표준 편차와 후보 답변 수당 수동 품질 레이블을 표 7에 보고합니다.
- 결과에 따르면 MIMICS-Click 및 MIMICS-ClickExplore 데이터 세트의 평균 참여 사이에는 약간의 차이가 있습니다.
- 3개의 후보 답변에 대한 설명은 나머지 답변보다 약간 더 높은 참여로 이어졌습니다.
- 이는 다시 수동 품질 라벨과 상반됩니다.
- 3개의 후보 답변이 있는 설명은 가장 낮은 답변 세트 품질 레이블을 얻었습니다.
- 반면에 3개의 후보 답변이 있는 설명의 질문 품질은 다른 것보다 높습니다.
- 이것은 질문 품질이 사용자 참여를 높이는 데 중요한 역할을 할 수 있음을 강조합니다.
4.5 Analyzing Click Entropy Distribution on Candidate Answers
- MIMICS-Click 및 MIMICS-ClickExplore는 모두 각 개별 답변에 대한 조건부 클릭 확률, 즉 사용자가 설명 창과 상호 작용한다고 가정할 때 각 후보 답변을 클릭할 확률을 포함합니다.
- 이 확률적 분포의 엔트로피는 클릭이 후보 응답에 어떻게 분포되어 있는지 보여줍니다.
- 엔트로피 범위는 후보 답변 수에 따라 달라지므로 후보 답변 크기당 최대 엔트로피로 엔트로피 값을 정규화했습니다.
- MIMICS-Click 및 MIMICS-ClickExplore의 분포는 각각 그림 2와 3에 보고되어 있습니다.
- 시각화를 위해 이러한 플롯에는 클릭이 없는 설명(즉, 참여 수준 0)과 엔트로피가 0인 설명이 포함되지 않습니다.
- 플롯에 따르면 엔트로피 분포의 피크 수는 후보 답변 수와 정렬됩니다.
- 히스토그램이 최고조에 달하는 엔트로피 값은 많은 경우에 𝑛 후보 답변 중 𝑚(모든 𝑚 값에 대해)에 대해 균일한 분포가 있음을 시사합니다.
- 그림 2의 플롯과 그림 3의 플롯을 비교하면 이 결과가 데이터 세트 전체에서 일관됨을 알 수 있습니다.
5 INTRODUCING RESEARCH PROBLEMS RELATED TO SEARCH CLARIFICATION
- MIMICS enables researchers to study a number of research problems.
- In this section, we introduce these tasks and provide high-level suggestions for evaluating the tasks using MIMICS.
5.1 Clarification Generation
- clarification generation (clarifying quesion and candidate answers 둘 다 포함)은 search calrification의 핵심 테스크이다.
- passage-level text로부터 generating clarification은 커뮤니티 question answering posts의 컨텍스트에서 연구되어왔다.
- 최근 검색 엔진(본 연구와 유사)[29] 및 추천 시스템[32]과 같은 정보 검색 시스템에서 많은 주목을 받고 있습니다.
- 이전의 연구는 search clarification을 생성하는데 큰 학습 데이터의 부족하다고 지적했다.
- MIMICS, 특히 click data은 clarification generation models을 학습하는데 최적의 리소스를 제공한다.
- 반면에 clarification generation models을 평가하는 것은 어렵다.
- generated clarification models을 평가하는데 MIMICS 사용의 한 가지 방법은 BLEU, ROUGE와 같은 메트릭들이다.
- 그러나, 우리는 이러한 평가방법론들을 강력히 권하지 않는다.
- 왜냐하면 user satisfaction과 clarification 퀄리티사이의 연관성이 나쁘기 때문이다.
- clarifiaction generation models 평가를 위한 우리의 추천은 다음과 같다.
- 실제 사용자들의 프로덕션 시스템에 접근하는 경우, online experiments을 수행하는 것은 (즉 A/B 테스트) 신뢰할만한 평가 방법이고 모델들은 user engagement measures을 (click률과 같은) 사용하여 비교된다.
- 주의깊게 정의된 기준을 기반으로 generated clarifications의 수동 어노테이션은 clarification generation evaluation의 대안이 될 수 있다.
- 이전에 Zamani가 이 방법론을 사용했다.
- 연구자들은 그들의 크라우드소싱 HITs을 디자인하기 위해 section 3.3에서 소개된 가이드라인 어노테이션을 적용할 수 있다.
5.2 Clarification Selection
- clarification generation models의 자동 offline evaluation은 어렵기 때문에, clarification selection (or clarification re-ranking)은 clarification의 learned representations의 퀄리티를 평가하는데 auxiliary tasks로 간주될 수 있다.
- 게다가, Aliannejadi에 의해 지적된 것처럼, 정보 탐색 시스템들은 clarification을 요청하는데 두 스테이지 프로세스를 적용한다.
- 여러 clarifications 생성과 하나를 선택하는 것
- clarification selecting은 [1, 14, 30]에서 연구되어왔다.
- 연구자들은 MIMICS로부터 clarification selection models을 학습과 평가하는데 이점을 가질 수 있다.
- 좀 더 자세히, MIMICS-ClickExplore은 query당 여러 clarifications을 가지고 clarification selction models (혹은 re-ranking)을 평가하는데 사용된다.
- 생각해보면, 선택을 하는데 clarifying question과 answer candidate 둘 다 영향이 있을 듯
- 즉 question&answer 쌍이 하나의 후보가 되는 건가?
- 다른 두 개의 데이터세트들은 랜덤하게 혹은 베이스라인 모델을 사용해서 획득한 negative samples을 활용해서 사용될 수 있다.
- NDCG와 같은 ranking metric 은 clarification selection models을 평가하는데 사용된다.
- 게다가, 오직 한 개의 clarification이 종종 유저들에게 보여지기 때문에, 선택된 larification의 average engagement이 evaluation metric으로 선택될 수 있다.
- Refer to [30] for more information.
5.3 User Engagement Prediction for Clarification
- search clarification에서 중요 테스크는 clarification을 요청할지 결정하는 것이다, 특히 search systems with limited-bandwidth interfaces에서 그렇다.
- 이 문제는 query performance prediction에 적용될 수 있다.
- 다른 말로, 주어진 query에 대한 예측 성능이 threshold 이하일 때, clarification가 요청될 수 있다.
- query performance 예측과 engagement 예측하고 비슷한거 아닌가?
- 이 테스크를 위한 query 성능 예측의 대안은 user engagement 예측이다.
- 좀 더 자세히, 만약 유저들이 clarification와 상호작용을 즐기고 유용하다고 한다면, 시스템은 clarification을 요청할 것을 결정할 수 있다.
- 항상 clarification question이 나가는 것이 아니라, 이를 예측해서 필요하다는 판단이 섰을 때 내보내기 위함인 테스크인듯?
- user engagement을 예측하는 것은 social media와 web applications과 같은 다양한 컨텍스트들에서 연구되어 왔다.
- 그러나, clarification을 위한 user engagement prediction 근본적으로 다르다.
- MIMICS-Click와 MIMICS-ClickExplore은 engagement levels [0, 10] 구간을 가진다.
- 따라서 user engagements을 예측하는데 바로 사용될 수 있다.
- clarification을 위한 user engagements 예측 모델을 평가하기 위해, 우리는 예측된 engagements와 데이터세트에서 실제 관측된 engagement 사이의 correlation 계산을 추천한다.
- correlation은 또한 query performance 예측 모델들을 평가하기 위해서도 사용되었다.
- engagement levels만 공개하므로 선형(예: Pearson의 𝜌) 및 순위 기반(예: Kendall의 𝜏) 상관관계 메트릭을 모두 사용하는 것이 좋습니다.
- 또한 mean square error 또는 mean absolute error는 user engagement 예측 방법을 평가하는 데 사용할 수 있습니다.
5.4 Re-ranking Candidate Answers
- 이전의 연구는 clarification 문제에서 candidate answers의 순서를 보여준다.
- MIMICS은 연구자들이 주어진 query와 clarifying question의 쌍에 대해, candidate answers을 re-ranking하는 테스크를 연구가능하게 한다.
- 즉 주어지는 건 query+question이고, 이때 candidate answer의 순서를 랭킹하는 것
- click data (MIMICS-Click and MIMICS-ClickExplore)와 manual annotations 둘 다에 대한 실험들은 테스크에 대한 보완적인 평가를 제공한다.
- candidate answers re-ranking 테스크를 평가하기 위해, landing SERP 퀄리티를 기반으로 개별 answers당 manaul annotations을 등급별 relevance 판단으로 사용할 수 있다.
- NDCG would be adopted as the evaluation metric.
- click 데이터를 이용한 평가를 위해 연구자는 데이터의 프리젠테이션 편향에 주의해야 합니다.
- 자세한 내용은 [30]을 참조하십시오.
- 요약하면, high ranks을 가지고 longer text인 candidate answers은 clicks을 유도할 가능성이 높다.
- re-ranking candidate answers하기 위해 MIMICS-Click 및 MIMICS-ClickExplore를 사용하기 전에 이 점을 고려해야 합니다.
- 이 문제가 해결되면 conditional click 확률을 순서를 나타내는 relevance 레이블에 매핑할 수 있으며 평가를 위해 일반적인 ranking 메트릭을 채택할 수 있습니다.
- 후보 답변에 대한 predicted probability distribution와 actual conditional click distribution사이에 cross-entropy를 사용할 수도 있습니다.
- 노출(impression) level은 노출과 관련하여 query clarification 쌍당 이득을 계산하기 위해 메트릭에서 고려할 수도 있습니다.
- 더 자세하게는 더 자주 제시되는 clarifications에 더 높은 가중치를 할당해야 합니다.
- 데이터에서 긴 query가 주어질 때 클릭될 확률이 높은 것을 고려해야한다?
5.5 Click Models for Clarification
- re-ranking candidate answers 테스크와 관련하여 clarification 창과 상호 작용하는 동안 클릭 동작에 대한 사용자 모델을 설계하는 것이 중요합니다.
- Zamani[30]는 주로 웹 검색을 위해 설계된 기존 클릭 모델이 search clarification에 대해 예상대로 수행되지 않음을 보여주었습니다.
- 그 이유는 웹 검색 클릭 모델에서 만들어진 가정이 search clarification에 적합하지 않기 때문입니다.
- MIMICS-ClickExplore 데이터 세트에는 후보 답변의 순서만 다른 특정 쿼리에 대한 많은 clarification 쌍이 포함되어 있습니다.
- 이를 통해 연구원은 MIMICS-ClickExplore를 사용하여 검색 설명을 위한 클릭 모델을 교육하고 평가할 수 있습니다.
- [30]에서 사용된 평가 방법론은 작업 평가를 위해 제안됩니다.
- 요약하면 인접한 후보 답변을 교환할 클릭 확률 예측을 기반으로 합니다.
- 이 접근 방식은 원래 Craswell [10]에 의해 웹 검색에서 클릭 모델을 평가하는 데 사용되었습니다.
- cross-entropy는 이 평가 설정에서 적절한 메트릭이 될 것입니다.
5.6 Analyzing User Behavior in Search Clarification
- 이 논문은 manual judgements과 engagement levels 모두에서 search clarification 품질을 기반으로 여러 분석을 제공하지만,
- 향후 작업은 MIMICS-Click 및 MIMICS-ClickExplore의 이점을 활용하여 웹 검색 맥락에서 search clarification과 상호 작용하면서 사용자 행동에 대한 심층 분석을 수행할 수 있습니다.
6 CONCLUSIONS
- 이 논문에서, 우리는 MIMICS을 소개하고 이는 search clarification 연구를 위한 데이터 수집이다.
- 이는 web search와 conversational search의 컨텍스트에서 흥미롭고 새로운 작업이다.
- MIMICS는 real users의 queries와 interactions을 기반으로 구성되었고, 주요 상버 web search 엔진의 search logs로부터 수집되었다.
- MIMICS는 3가지 데이터세트로 구성된다.
- (1) MIMICS-Click는 clarification 창들과 연관된 400k 유니크한 quries을 포함한다.
- (2) MIMICS-ClickExplore은 탐구 데이터이고 query당 여러 clarification 창들을 포함한다. 이것은 60k 유니크한 queries을 포함한다.
- (3) MIMICS-Manual은 clarifying questions, candidate answer sets, 각 candidate answers을 클릭한 후의 lading result page을 위한 손수 어노테이션한 작은 데이터세트이다.
- We publicly released these datasets for research purposes.
- 또한 데이터 세트에서 사용자 상호 작용 및 수동 주석에 대한 포괄적인 분석을 수행하고 검색 설명의 다양한 측면을 조명했습니다.
- 우리는 마침내 연구원들이 MIMICS를 통해 혜택을 볼 수 있는 몇 가지 주요 연구 문제를 소개했습니다.
- 앞으로는 백서에 소개된 각 개별 작업에 대한 여러 표준 기준선에 대한 벤치마크 결과를 보고할 예정입니다.
- 재현성과 비교를 개선하기 위해 결과를 공개합니다.
- 공개된 데이터 세트에는 여러 가지 제한 사항이 있습니다.
- 예를 들어 en-US 시장에만 집중하고 개인화 및 세션 수준 정보는 포함하지 않습니다.
- 이러한 제한은 나중에 해결할 수 있습니다.
Reference
댓글
댓글 쓰기