DSTC 10 - Track 3

소개

  • https://sites.google.com/dstc.community/dstc10/tracks?authuser=0

SIMMC 2.0: Situated Interactive Multimodal Conversational AI

4 Task Formulation

  • SIMMC 2.0 데이터 세트의 목표는 인간이 자리 잡은 다중 모드 컨텍스트에 기반한 자연어 대화 에이전트와 대화하는 미래의 실제 쇼핑 시나리오를 모방하는 것입니다.
  • 이 지능형 대화 에이전트를 향한 한 걸음으로, 우리는 데이터 세트의 대화와 주석을 활용하고 평가 지표와 함께 4 개의 벤치 마크 작업 (표 3에 요약 됨)을 제안합니다.
  • 이러한 작업은 다음에 자세히 설명 할 여러 가지 대화식 추론 과제를 포착합니다.

4.1 Multimodal Disambiguation

  • 실제 대화 세계에서, 사람들은 대화에서 이미 언급된 objects / evenets을 참조하기 위해, 종종 공동참조를 사용한다.
  • 우리는 Sec. 4.2에서 챌린지 테스크로써 coreference resolution을 모델링하는 것을 예약한다.
    • 이것은 시스템이 이러한 상호 참조를 해결하려고 시도하기 전에 ambiguous 사용을 인식하는 것이 중요하다.
  • 예를 들어, ‘A: The blue trouser is priced at $45. U: What about those?’, 에서 phrease those 는 따라오는 situation에서 ambiguous할 수 있다.
    • (a) 사용자가 염두에 두고 있는 정확한 것을 특정하지 않고 바지들의 그룹을 참조하는 경우 (예시에서 여기 있는 것들은 얼마에요? 라는 느낌)
    • (b) 사용자가 대화의 간결함 때문에 대화속에서 언급되지 않은 바지의 새로운 쌍에 대한 줄임말을 잘못 사용한 경우 (예시에서 이거는 얼마에요? 라는 느낌)
    • 두 케이스 모두, disambiguation(명확)의 필요성을 확인하고 "무엇에 대해 이야기 하고 있어요? red or green 쌍?"과 같은 응답이 robust assistant system에서 요구되는 특징이다.
  • We formulate the task of multimodal disambiguation to test this ability of the system.
  • 좀 더 구체적으로, 대화 히스토리와 현재 사용자 발화가 주어졌을 때, multimodal disabiguation은 agent가 multimodal context을 기반으로 binary label을 예측하도록 요구해서 사용자 발화의 referential ambiguity의 존재를 가리킨다.
  • 이 레이블은 assistant response generation과 같은 다른 다운스트림 테스크에 유용할 수 있다.
  • We use accuracy to measure and compare model performances for this task.

4.2 Multimodal Coreference Resolution (MM-Coref)

  • 이 테스크에서, 우리는 사용자 발화에서 referential mentions을 각 장면에서 정의된 그들의 canonical object IDs로 해결한다.
  • 이러한 mentions은 다음으로 해결될 수 있다.
    • (1) dialog context (예. A: ‘This shirt comes in XL and is $29.’ → U: ‘Please add it to cart.’)
    • (2) multimodal context (예. U: ‘How much is that red shirt?’)
    • (3) both (e.g. U: ‘How much is the one next to the one you mentioned?’).
  • 이 테스크에서 입력은 각 object ID에서 정의된 ground-truth bounding box을 포함하고 object detection algorithms으로 인한 성능 bottleneck은 피한다.
  • 주요 evaluation metric은 F1, precision, recall 성능을 포함한다.
  • 명확성 요청이 바로 뒤 따르는 객체 언급은 평가에서 제외됩니다 (예 : '저쪽에있는 항목은 얼마입니까?'↔ '어떤 것을 의미합니까?'). 
    • 그들은 해당 상호참조들을 해결하기위한 충분한 설명을 제공하지 않기 때문입니다. 
    • 여기서 말하는 objection mentions은 발화에 연동된 object list을 말하는 것이다.
    • 즉, 이 list중에 어떤 object와 연관되는지를 맞추는 것
    • 그렇다면 subtask 1에서 쓰는 META(멀티모달) 정보는 과거것만 사용할 수 있는 거겠지?

4.3 Multimodal Dialog State Tracking (MM-DST)

  • Moon 2020에 따라, 우리는 전통적인 unimodal dialog state tracking (DST) 문제의 notion을 확장하고 MM-DST을 main sub-task로 제안하다.
    • 여기서 slots은 공존하는 multimodal context을기반으로 하고, 이는 dialog states의 일부로 multimodal objects (텍스트 토큰들과 반대로)을 핸들링하는 것을 요구한다.
  • 성능은 cumulative intent, slot과 object reference prediction에 대한 recall, precision과  joint F1으로 측정된다.
  • 이 테스크의 주요 이유는 MM-DST labels가 멀티모달 대화 시스템에 대한 충분한 정보를 제공할 수 있을 것이다.
    • 멀티모달 대화 시스템은 각 멀티모달 신에서 detected과 resolved 항목들이 주어졌을 때, 대화 policies와 actions을 실행한다.
  • 그래서, MM-DST 테스크는 disambiguation 요구사항 및 상호 참조를 포함하여 각 대화 에서 사용자 요청에 대한 모델의 전체적인 이해를 측정합니다.

4.4 Assistant Response Generation 

  • 이 테스크의 골은 candidate pool로부터 검색하거나 혹은 assistant response을 생성하는 것이다.
    • 이 때, user utterances, ground-truth belief state와 object IDs가 주어진다.
  • 우리는 assistant agent가 각 object에 대한 ground-truth meta information을 가진다고 가정하는 동안, 각 response는 자연스럽게 co-obsereved scene or dilaog context을 통해 user을 이해하고 관측된 referent objects을 설명해야한다.
    • 대화컨텍스트 + (e.g. INFORM:RECOMMEND (OBJ ID: 3) → A: “I recommend the blue shirt directly behind the brown jacket.”.
  • [Moon et al., 2020]과 유사하게 응답 생성을위한 시스템 성능을 평가하는 두 가지 방법을 제안합니다.
    • (a) 생성 테스크로써, agent는 conditional language model로써 간주한다. 
      • 성능은  생성된 response와 데이터세트에서 제공하는 ground truth response 사이의 BLEU-4 score을 사용한다.
    • (b) 검색 테스크로써, agent는 candidate responses의 리스트로부터 (각 발화에 고유하게 무작위로 생성됨.) ground truth response을 선택하게 된다.
      • 우리는 traditional information retrieval metric인 recall@k (k={1,5,10})과 mean rank, mean reciprocal rank와 같은 것을 사용한다.

5 Modeling & Empirical Analysis

  • In this section, we perform preliminary empirical analysis and train baselines. 
  • We leave more detailed modeling work for the future.
  • Dataset split. 
    • 우리는 랜덤으로 데이터세트를 4개로 나눈다
      • train (65%), dev (10%), dev-test (10%), and test-std (15%). 
    • 우리는 개발된 모델들을 공정한 평가하기 위해 test-std는 hidden set로 숨겨둔다. 
  • Notations. 
    • We denote a SIMMC dialog with Nr rounds: 
      • 에서 와 는 user와 assistant utterances이다.
      • 는 domain-specific multimodal context이다.
      • 는 user 사이드 대화의 semantic parse로써 표현된 multimodal belief state이다. (i.e. intent, slot, object references, disambiguation labels)
    • 각 라운드 t에서 현재 user utterance Ut, dialog history Ht = ()^{t-1}_{i=1} 그리고 multimodal context Mt가 주어지면, task는 user belief state Bt와 natural language assistant response At을 예측하는 것이다.
      • 즉 대화 히스토리, 현재 발화, 멀티모달 정보가 주어지고 Bt와 At을 예측하는 것이다.
      • Bt에서 disambiguation labels을 예측하는 것이 subtask1
      • Bt에서 references을 예측하는 것이 subtask2
      • Bt에서 intent, slot을 예측하는 것이 subtask3
      • At예측하는 것이 subtask 4
  • Baseline. 
    • MM-Coref, DST 및 응답 생성 작업에 대한 GPT-2 [Radford et al., 2019] 기반 transformer을 학습하여 데이터 세트를 벤치마킹합니다.
    • 이 테스크들에서 설명된 베이스라인 모델은 입력으로 dilaog context와 flattened multimodal contexts (structurally formatted strings)을 취해서 belief states와 responses을 예측한다.
      • 즉 유명한 causal language model approach을 따른다.
    • 제안된 베이스라인은 scene generator로부터 생성된 ground-truth multimodal contexts을 (raw images 대신에) 입력으로 사용한다. (real-word setting과 비슷하게)
    • 따라서 모델은 기본 computer vision 모델 성능에 의해 방해받지 않고 제안된 데이터 세트에 대한 soft oracle 성능을 설정하기 위한 것입니다.
    • We leave the development of the vision incorporated models as future work.
  • Analysis. 
    • 테이블 4에 결과가 요약되어있다.
    • SIMMC 2.0에서 multimodal object coreference resolution task에 대한 F1 성능은 40.27%에 불과하다. (79.3으로 표기되어있는 건 뭐지?)
    • 반면에 SIMMC 1.0에서 비슷한 테스크에 대한 최고 성능은 89.5%을 달성한다.
    • 이것은 SIMMC 2.0이 좀 더 복잡하고 어수선한 scenes을 표현한다는 것을 보여준다.
    • 그래서 좀 더 엄격한 multimodal contexts의 visual grounding을 요구한다. (19.7 objects per dialog on average)
    • We leave a more detailed error analysis as future work.

6 Conclusions 

  • Our main contributions are as follows: 
    • 먼저, 우리는 Situated and Interactive Multimodal Conversations, SIMMC 2.0에 대한 새로운 코퍼스를 소개하고, 이는 쇼핑 도메인에서 (fashion and furniture) 사용자와 virtual assistant 11K dialogs (117K utterances)을 포함한다.
      • 이는 photo-realistic VR scenes에 기반한다.
    • 우리는 그다음 novel multimodal dialog simulator을 소개하고, 이는 자동으로 구성되는 다양한 멀티모달 contexts에 기반한 simulated dialgos을 생성한다.
  • 기준 모델을 사용한 예비 경험적 분석은 제안 된 SIMMC 2.0 데이터 세트가 가져 오는 많은 새로운 과제를 보여 주며이 분야의 새로운 연구 방향을 강조합니다

참고 - SIMMC 1.0

  • https://arxiv.org/pdf/2006.01460.pdf
  • Task 1: Structural API Call Prediction. 
    • 이 작업에는 Ht, Mt, Ut를 입력으로 사용하여 필요한 인수와 함께 API 호출로에서 assistant action을 예측하는 작업이 포함됩니다. 
    • 예를 들어, 공유 가구 항목의 속성 값 (예 : 가격)에 대한 조회는 price 인수를 사용하여 SpecifyInfo API를 호출하여 실현됩니다. 
    • SIMMC 데이터 세트에 대한 포괄적 인 API 세트는 탭 8에 나와 있습니다.
    • 이러한 API 외에도 기본 API 호출없이 상황을 포착하기위한 None API 호출도 포함됩니다. 
    • 예를 들어 
      • 'U: Can I see some tables?'에 'A: What color are you looking for?'로 응답합니다. 
      • 이는 API 호출이 필요하지 않습니다. 
    • 동작 예측은 API 집합에 대해 라운드 방식의 다중 클래스 분류 문제로 캐스팅되며 데이터 수집 중에 어시스턴트가 수행 한 동작을 예측하는 1-0 정확도를 사용하여 측정됩니다. 
    • 그러나 주어진 컨텍스트에서 똑같이 유효한 몇 가지 작업이있을 수 있습니다. 
    • 예를 들어, 
      • 'U: Show me some black couches.'에 대한 응답으로 'A: Here are a few.'와 같이 검은색 소파를 보여줄 수 있습니다. 
      • 또는 특정 선호도에 대해 자세히 문의 할 수 있습니다. 
      • 'A: What price range would you like to look at?'. 
      • 정확성은 여러 유효한 작업의 존재를 고려하지 않기 때문에 정확성과 함께 혼란 (평균 로그 가능성의 지수로 정의 됨)을 사용합니다. 
      • API (예측 조치) 인수의 정확성도 측정하기 위해 수집 된 데이터 세트와 비교하여 속성 정확도를 사용합니다.
  • Task 2: Response Generation
    • 이 작업은 현재 턴에서 어시스턴트 응답 At의 관련성을 측정합니다. 
    • 우리는 다음과 같은 두 가지 방법으로 평가합니다. 
      • (a) 조건부 언어 모델링 문제, 생성 된 응답과 실제 응답 사이의 근접성이 BLEU-4 점수 (Papineni et al., 2002)를 사용하여 측정되고, 
      • (b) Retrieval @ k (k = 1, 5, 10)와 같은 표준 검색 메트릭을 사용하여 100 명의 후보 풀 (각 턴에 대해 무작위로 선택됨)에서 실측 응답을 검색하는 모델의 성능을 측정하는 검색 문제, 평균 순위 및 평균 상호 순위입니다.
  • Task 3: Dialog State Tracking (DST).
    • 유연한 온톨로지를 사용하여 수집 된 대화 주석을 통해 SIMMC에서 대화 상태 추적 (DST)을 연구 할 수 있으며 목표 기반 에이전트를 교육하기위한 추가 감독을 제공 할 수 있습니다.
    • Sec 4에서 언급했듯이, 사용자 및 어시스턴트 발화는 해당 슬롯 또는 속성 (있는 경우)에 대한 대화 레이블 및 텍스트 범위의 계층 구조와 함께 제공됩니다. 
    • DST의 목표는 여러 차례에 걸쳐 대화 행위와 관련 슬롯 쌍을 체계적으로 추적하는 것입니다. 
    • DST의 이전 작업에 따라 의도 및 슬롯 예측 메트릭 (F1)을 사용합니다 (Henderson et al., 2014).
    • Within these intents, slots further specify values for attributes of objects, activities, and attribute types. 
    • In the basic case, slots take the form of attributes of the intent-level objects and restrict those attributes. 

댓글