SIMMC 2.0 데이터 세트의 목표는 인간이 자리 잡은 다중 모드 컨텍스트에 기반한 자연어 대화 에이전트와 대화하는 미래의 실제 쇼핑 시나리오를 모방하는 것입니다.
이 지능형 대화 에이전트를 향한 한 걸음으로, 우리는 데이터 세트의 대화와 주석을 활용하고 평가 지표와 함께 4 개의 벤치 마크 작업 (표 3에 요약 됨)을 제안합니다.
이러한 작업은 다음에 자세히 설명 할 여러 가지 대화식 추론 과제를 포착합니다.
4.1 Multimodal Disambiguation
실제 대화 세계에서, 사람들은 대화에서 이미 언급된 objects / evenets을 참조하기 위해, 종종 공동참조를 사용한다.
우리는 Sec. 4.2에서 챌린지 테스크로써 coreference resolution을 모델링하는 것을 예약한다.
이것은 시스템이 이러한 상호 참조를 해결하려고 시도하기 전에 ambiguous 사용을 인식하는 것이 중요하다.
예를 들어, ‘A: The blue trouser is priced at $45. U: What about those?’, 에서 phrease those 는 따라오는 situation에서 ambiguous할 수 있다.
(a) 사용자가 염두에 두고 있는 정확한 것을 특정하지 않고 바지들의 그룹을 참조하는 경우 (예시에서 여기 있는 것들은 얼마에요? 라는 느낌)
(b) 사용자가 대화의 간결함 때문에 대화속에서 언급되지 않은 바지의 새로운 쌍에 대한 줄임말을 잘못 사용한 경우 (예시에서 이거는 얼마에요? 라는 느낌)
두 케이스 모두, disambiguation(명확)의 필요성을 확인하고 "무엇에 대해 이야기 하고 있어요? red or green 쌍?"과 같은 응답이 robust assistant system에서 요구되는 특징이다.
We formulate the task of multimodal disambiguation to test this ability of the system.
좀 더 구체적으로, 대화 히스토리와 현재 사용자 발화가 주어졌을 때, multimodal disabiguation은 agent가 multimodal context을 기반으로 binary label을 예측하도록 요구해서 사용자 발화의 referential ambiguity의 존재를 가리킨다.
이 레이블은 assistant response generation과 같은 다른 다운스트림 테스크에 유용할 수 있다.
We use accuracy to measure
and compare model performances for this task.
4.2 Multimodal Coreference Resolution
(MM-Coref)
이 테스크에서, 우리는 사용자 발화에서 referential mentions을 각 장면에서 정의된 그들의 canonical object IDs로 해결한다.
이러한 mentions은 다음으로 해결될 수 있다.
(1) dialog context (예. A: ‘This shirt comes in XL and is $29.’ → U: ‘Please add it to cart.’)
(2) multimodal context (예. U: ‘How much is that red shirt?’)
(3) both (e.g. U: ‘How much is the one next to the one you mentioned?’).
이 테스크에서 입력은 각 object ID에서 정의된 ground-truth bounding box을 포함하고 object detection algorithms으로 인한 성능 bottleneck은 피한다.
주요 evaluation metric은 F1, precision, recall 성능을 포함한다.
명확성 요청이 바로 뒤 따르는 객체 언급은 평가에서 제외됩니다 (예 : '저쪽에있는 항목은 얼마입니까?'↔ '어떤 것을 의미합니까?').
그들은 해당 상호참조들을 해결하기위한 충분한 설명을 제공하지 않기 때문입니다.
여기서 말하는 objection mentions은 발화에 연동된 object list을 말하는 것이다.
즉, 이 list중에 어떤 object와 연관되는지를 맞추는 것
그렇다면 subtask 1에서 쓰는 META(멀티모달) 정보는 과거것만 사용할 수 있는 거겠지?
4.3 Multimodal Dialog State Tracking
(MM-DST)
Moon 2020에 따라, 우리는 전통적인 unimodal dialog state tracking (DST) 문제의 notion을 확장하고 MM-DST을 main sub-task로 제안하다.
여기서 slots은 공존하는 multimodal context을기반으로 하고, 이는 dialog states의 일부로 multimodal objects (텍스트 토큰들과 반대로)을 핸들링하는 것을 요구한다.
이 테스크의 주요 이유는 MM-DST labels가 멀티모달 대화 시스템에 대한 충분한 정보를 제공할 수 있을 것이다.
멀티모달 대화 시스템은 각 멀티모달 신에서 detected과 resolved 항목들이 주어졌을 때, 대화 policies와 actions을 실행한다.
그래서, MM-DST 테스크는 disambiguation 요구사항 및 상호 참조를 포함하여 각 대화 에서 사용자 요청에 대한 모델의 전체적인 이해를 측정합니다.
4.4 Assistant Response Generation
이 테스크의 골은 candidate pool로부터 검색하거나 혹은 assistant response을 생성하는 것이다.
이 때, user utterances, ground-truth belief state와 object IDs가 주어진다.
우리는 assistant agent가 각 object에 대한 ground-truth meta information을 가진다고 가정하는 동안, 각 response는 자연스럽게 co-obsereved scene or dilaog context을 통해 user을 이해하고 관측된 referent objects을 설명해야한다.
대화컨텍스트 + (e.g. INFORM:RECOMMEND (OBJ ID: 3) → A: “I recommend the blue shirt directly behind the brown jacket.”.
[Moon et al., 2020]과 유사하게 응답 생성을위한 시스템 성능을 평가하는 두 가지 방법을 제안합니다.
(a) 생성 테스크로써, agent는 conditional language model로써 간주한다.
성능은 생성된 response와 데이터세트에서 제공하는 ground truth response 사이의 BLEU-4 score을 사용한다.
(b) 검색 테스크로써, agent는 candidate responses의 리스트로부터 (각 발화에 고유하게 무작위로 생성됨.) ground truth response을 선택하게 된다.
우리는 traditional information retrieval metric인 recall@k (k={1,5,10})과 mean rank, mean reciprocal rank와 같은 것을 사용한다.
5 Modeling & Empirical Analysis
In this section, we perform preliminary empirical
analysis and train baselines.
We leave more detailed
modeling work for the future.
Dataset split.
우리는 랜덤으로 데이터세트를 4개로 나눈다
train (65%), dev (10%), dev-test (10%),
and test-std (15%).
우리는 개발된 모델들을 공정한 평가하기 위해 test-std는 hidden set로 숨겨둔다.
Notations.
We denote a SIMMC dialog with Nr
rounds:
에서 와 는 user와 assistant utterances이다.
는 domain-specific multimodal context이다.
는 user 사이드 대화의 semantic parse로써 표현된 multimodal belief state이다. (i.e. intent, slot, object references, disambiguation labels)
각 라운드 t에서 현재 user utterance Ut, dialog history Ht = (, )^{t-1}_{i=1} 그리고 multimodal context Mt가 주어지면, task는 user belief state Bt와 natural language assistant response At을 예측하는 것이다.
즉 대화 히스토리, 현재 발화, 멀티모달 정보가 주어지고 Bt와 At을 예측하는 것이다.
Bt에서 disambiguation labels을 예측하는 것이 subtask1
Bt에서 references을 예측하는 것이 subtask2
Bt에서 intent, slot을 예측하는 것이 subtask3
At예측하는 것이 subtask 4
Baseline.
MM-Coref, DST 및 응답 생성 작업에 대한 GPT-2 [Radford et al., 2019] 기반 transformer을 학습하여 데이터 세트를 벤치마킹합니다.
이 테스크들에서 설명된 베이스라인 모델은 입력으로 dilaog context와 flattened multimodal contexts (structurally formatted strings)을 취해서 belief states와 responses을 예측한다.
즉 유명한 causal language model approach을 따른다.
제안된 베이스라인은 scene generator로부터 생성된 ground-truth multimodal contexts을 (raw images 대신에) 입력으로 사용한다. (real-word setting과 비슷하게)
따라서 모델은 기본 computer vision 모델 성능에 의해 방해받지 않고 제안된 데이터 세트에 대한 soft oracle 성능을 설정하기 위한 것입니다.
We leave the development of
the vision incorporated models as future work.
Analysis.
테이블 4에 결과가 요약되어있다.
SIMMC 2.0에서 multimodal object coreference resolution task에 대한 F1 성능은 40.27%에 불과하다. (79.3으로 표기되어있는 건 뭐지?)
반면에 SIMMC 1.0에서 비슷한 테스크에 대한 최고 성능은 89.5%을 달성한다.
이것은 SIMMC 2.0이 좀 더 복잡하고 어수선한 scenes을 표현한다는 것을 보여준다.
그래서 좀 더 엄격한 multimodal contexts의 visual grounding을 요구한다. (19.7 objects per dialog on average)
We leave a more detailed error analysis as
future work.
6 Conclusions
Our main contributions are as follows:
먼저, 우리는 Situated and Interactive Multimodal Conversations, SIMMC 2.0에 대한 새로운 코퍼스를 소개하고, 이는 쇼핑 도메인에서 (fashion and furniture) 사용자와 virtual assistant 11K dialogs (117K utterances)을 포함한다.
이는 photo-realistic VR scenes에 기반한다.
우리는 그다음 novel multimodal dialog simulator을 소개하고, 이는 자동으로 구성되는 다양한 멀티모달 contexts에 기반한 simulated dialgos을 생성한다.
기준 모델을 사용한 예비 경험적 분석은 제안 된 SIMMC 2.0 데이터 세트가 가져 오는 많은 새로운 과제를 보여 주며이 분야의 새로운 연구 방향을 강조합니다
참고 - SIMMC 1.0
https://arxiv.org/pdf/2006.01460.pdf
Task 1: Structural API Call Prediction.
이 작업에는 Ht, Mt, Ut를 입력으로 사용하여 필요한 인수와 함께 API 호출로에서 assistant action을 예측하는 작업이 포함됩니다.
예를 들어, 공유 가구 항목의 속성 값 (예 : 가격)에 대한 조회는 price 인수를 사용하여 SpecifyInfo API를 호출하여 실현됩니다.
SIMMC 데이터 세트에 대한 포괄적 인 API 세트는 탭 8에 나와 있습니다.
이러한 API 외에도 기본 API 호출없이 상황을 포착하기위한 None API 호출도 포함됩니다.
예를 들어
'U: Can I see some tables?'에 'A: What color are you looking for?'로 응답합니다.
이는 API 호출이 필요하지 않습니다.
동작 예측은 API 집합에 대해 라운드 방식의 다중 클래스 분류 문제로 캐스팅되며 데이터 수집 중에 어시스턴트가 수행 한 동작을 예측하는 1-0 정확도를 사용하여 측정됩니다.
그러나 주어진 컨텍스트에서 똑같이 유효한 몇 가지 작업이있을 수 있습니다.
예를 들어,
'U: Show me some black couches.'에 대한 응답으로 'A: Here are a few.'와 같이 검은색 소파를 보여줄 수 있습니다.
또는 특정 선호도에 대해 자세히 문의 할 수 있습니다.
'A: What price range would you like to look at?'.
정확성은 여러 유효한 작업의 존재를 고려하지 않기 때문에 정확성과 함께 혼란 (평균 로그 가능성의 지수로 정의 됨)을 사용합니다.
API (예측 조치) 인수의 정확성도 측정하기 위해 수집 된 데이터 세트와 비교하여 속성 정확도를 사용합니다.
Task 2: Response Generation
이 작업은 현재 턴에서 어시스턴트 응답 At의 관련성을 측정합니다.
우리는 다음과 같은 두 가지 방법으로 평가합니다.
(a) 조건부 언어 모델링 문제, 생성 된 응답과 실제 응답 사이의 근접성이 BLEU-4 점수 (Papineni et al., 2002)를 사용하여 측정되고,
(b) Retrieval @ k (k = 1, 5, 10)와 같은 표준 검색 메트릭을 사용하여 100 명의 후보 풀 (각 턴에 대해 무작위로 선택됨)에서 실측 응답을 검색하는 모델의 성능을 측정하는 검색 문제, 평균 순위 및 평균 상호 순위입니다.
Task 3: Dialog State Tracking (DST).
유연한 온톨로지를 사용하여 수집 된 대화 주석을 통해 SIMMC에서 대화 상태 추적 (DST)을 연구 할 수 있으며 목표 기반 에이전트를 교육하기위한 추가 감독을 제공 할 수 있습니다.
Sec 4에서 언급했듯이, 사용자 및 어시스턴트 발화는 해당 슬롯 또는 속성 (있는 경우)에 대한 대화 레이블 및 텍스트 범위의 계층 구조와 함께 제공됩니다.
DST의 목표는 여러 차례에 걸쳐 대화 행위와 관련 슬롯 쌍을 체계적으로 추적하는 것입니다.
DST의 이전 작업에 따라 의도 및 슬롯 예측 메트릭 (F1)을 사용합니다 (Henderson et al., 2014).
Within these intents, slots further specify values for attributes of objects, activities, and attribute types.
In the basic case, slots take the form of attributes of the intent-level objects and
restrict those attributes.
댓글
댓글 쓰기