◼ Comment

이 논문은 personalized response selection 의 분야에서 나온 논문의 첫 번째 같다.

실제론 첫 번째는 아니고 제대로 문제를 해결하려고하는 느낌..

어쨌든, IMN이란 모델이 있는데 이를 persona fusion을 시켜서 학습한 베이스라인을 제시하고
IMN의 단점이라고 생각한 것을 해결하려고하는 DIM 모델을 제시한다.
IMN (context-level)

1) context <-> persona 사이로 attention weight 구함
2) persona 문장들의 attention weighted sum을 context에 더해서 context+ 만듬.
3) c+ <-> response 비교해서 적절한 response 찾음

IMN (utterance-level)

context-level의 문제는 context안의 발화가 하나의 feature로 작동한다는 것이다.
실제로는 persona와 연관있는 utterance가 각기 다를 것인게 이것이 반영안된다는 것이다.
따라서 식2,3처럼 1)의 결과를 utterance 별로 나눠서 aggregation 하는 과정이 추가된다.

개인화된 응답 선택에 대한 이전 연구에서는 페르소나를 주의 기반 상호 작용에 의해 컨텍스트 표현을 향상시키기 위한 supplementary 정보로 취급합니다.
이 논문에서는 개인화 응답 선택 작업을 dual matching problem로 공식화합니다.
selected 응답은 주어진 컨텍스트 및 페르소나와 각각 적절하게 일치해야 합니다.
여기에서 페르소나는 ranking response candidates의 컨텍스트와 동등하게 중요한 대응물로 간주됩니다.
context와 response간의 interactive 매칭, persona와 response간의 interactive 매칭이 DIM(Dual Interactive Matching Network)을 구성합니다.
위 글대로, IMN에서는 persona을 단지, context+을 만드는데 사용했을 뿐이다.
따라서 persona <-> response가 직접적으로 매칭되는 느낌은 아니다.
DIM은 이를 직접적으로 비교하여, dual matching 느낌으로 가겠다는 것이다.
자세한 과정은 논문의 모델 오버뷰를 보면 되는데 복잡함.. 마치 옛날 MRC 논문 스타일 ㅋㅋ

결과

테이블 4보면, context가 persona보다 중요하다.
그림 3보면, persona간의 특정 word들이 중요하다.
테이블 5보면, original로 학습후 revised로 테스트는 성능이 떨어지지만, revised로 학습후 original로 테스트하면 꽤 준수한 성능을 보여준다. 즉 revised 페르소나가 일반화하기 좋다라는 것

0 Abstract

이 논문은 dually interactive matching network (DIM)을 검색기반 챗봇에서 대화 agents의 personalities을 표현하기 위해 제안된다.
이전의 persona fusion 접근법들과 비교해서, 이는 주어진 person의 similarit을 계산해서 context의 respresentation을 강화하고,
DIM 모델은 dual matching 구조에 적용하고, 이는 response candidate을 랭킹매기기 위해 response와 context 사이와 response와 persona 사이를 interactive mathicng을 수행한다.
PERSONA-CHAT 데이터세트에서의 실험 결과들은 DIM 모델이 그것의 베이스라인 모델들보다 뛰어난다.

즉 top-1 hits@1 정확도로 봤을 때 IMN with persona fusion보다 maring 14.5%을 가지고 현재 SoTA 모델보다 margin 27.7% 만큼 뛰어나다.

1 Introduction

intelligence으로 대화 시스템을 구축하는 것은 어려운 일입니다.
대화의 맥락에서 주어진 후보자 집합에서 잠재적인 response을 선택하는 것을 목표로 하는 response selection은 검색 기반 챗봇을 구축하는 중요한 기술입니다 (Zhou et al., 2018).
single-turn or multi-turn response selection에 대한 많은 이전의 연구들은 주어진 context와 함께 그들의 semantic relevance에 따라 response candidates을 랭킹매긴다.
Apple Siri, Google Now, MS Cortana와 같은 개인비서의 등장과 대중적인 사용으로, personalized dialogues을 만드는 것은 최근 몇년동안 많은 관심을 받고 있다.
Zhang (2018)은 PERSONA-CHAT 데이터세트를 personalized dialogue agents을 위해 구축하고, 여기서 각 persona은 profile description의 multiple sentences로써 표현이 된다.
이 데이터세트로부터 주어진 profiles을 조건으로하는 dialogue의 예제는 설명을 위해 테이블1에서 보여준다.
personalized response selection을 위한 Persona fusion 방법은 Zhang에 의해 제안되었다.

이 방법에서, 여러 profile sentences으로 구성된 context와 persona가 주어졌을 때, context representation과 모든 profile sentences 사이의 similarities은 먼저 attention을 통해 계산되어서 persona representation을 얻는다.
그리고 나서, persona representation은 간단하게 concatentation or addition operation을 통해서 context representation을 강화한다.
마지막으로, 강화된 context representation은 response candidates을 랭킹하는데 사용된다.

이 방법은 두 가지 주요 결함이 있다.

먼저, context은 profile sentences을 향한 attention을 계산하기 위해 전체적으로 처리된다.

그러나, 각 context은 여러 개의 utterances으로 구성되어있고 이 발화들은 profile sentences와 매칭될 때 다른 역할들을 가지고 있을 것이다.

두 번째로, persona와 각 response candidate 사이의 interactions들은 persona representation을 이끌어낼때 무시된다.

즉 context <-> response, context <-> personas만을 고려하기 때문에 response <-> personas은 없다는 것이다.

이 논문에서, interactive mathicng network (IMN)은 기본 아키텍쳐로 우리의 베이스라인을 구축하고 personalized response selection을 위한 모델을 향상시키기 위해 적용되었다.
베이스라인 모델은 Zhang (2018)에 의해 제안된 persona fusion method이고 두개의 향상된 모델이 제안된다.
(1) 먼저, fine-grained context-persona interaction을 가진 IMN-based persona fusion model은 고안되었다

이 모델에서, context의 각 utterance는 (전체의 context 대신에) persona의 각 profile sentence와의 similarity을 계산하는데 사용된다.

(2) 두 번째로, dually interactive matching network (DIM)은 dual matching problem으로써 personalized response selection의 task로 구성되었다.

즉 주어진 context와 persona에 동시에 적절한 response을 찾는 것이다.
DIM 모델은 response selection을 위한 final matching feature을 도출하기 위해 context와 response 사이의 interaction을 계산하고, 병렬적으로 persona와 response사이도 계산한다.

We test our proposed methods on the PERSONA-CHAT dataset.

결과들은 IMN 기반의 utterance-level persona fusion 모델과 DIM 모델이 top-1 accuracy hits@1이 각각 2.4%와 14.5%만큼 베이스라인보다 향상됐다.
마지막으로, 제안된 DIM 모델은 PERSONA-CHAT 데이터 세트에서 상위 1개 정확도 hit@1 측면에서 27.7%의 마진으로 현재 SoTA 모델보다 성능이 뛰어납니다.

요약하면, 논문의 기여는 3가지이다.

(1) 컨텍스트와 페르소나 간의 발화 수준 상호 작용을 고려하기 위해 IMN 기반의 세분화된 페르소나 융합 모델이 설계되었습니다.
(2) 주어진 컨텍스트와 페르소나에 동시에 적절하게 일치할 수 있는 응답을 찾는 것을 목표로 개인화 응답 선택 작업을 dual matching 문제로 공식화하여 dually interactive matching network (DIM)를 제안합니다.
(3) PERSONA-CHAT 데이터 세트에 대한 실험 결과는 우리가 제안한 모델이 응답 선택의 정확도에서 기준선 및 최첨단 모델을 크게 능가함을 보여줍니다.

2 Related Work

2.1 Response Selection

응답 선택은 검색 기반 챗봇을 구축하는 데 있어 중요한 문제입니다.
응답 선택에 대한 기존 작업은 single-turn and multi-turn dialogues로 분류할 수 있습니다.
초기 연구는 응답 일치를 위한 컨텍스트의 마지막 발화만을 고려하여 single-turn dialogues에 더 많이 수행되었습니다.
보다 최근에는 실제 적용을 위한 보다 실용적인 설정인 multi-turn conversations로 연구 초점이 옮겨졌습니다.
Wu(2017)는 먼저 response을 각 컨텍스트 발화와 일치시킨 다음 순환 신경망(RNN)에 의해 일치 정보를 축적하는 sequential matching network (SMN)를 제안했습니다.
Zhou(2018)는 DAM(Deep Attention Matching Network)을 제안하여 stacked self-attention을 사용하여 서로 다른 세분성에서 표현을 구성했습니다.
Gu(2019)는 matching feature vector을 도출하기 위해, word-level과 sentence-level 모두에서 컨텍스트와 응답의 representations을 향상하고 컨텍스트와 응답 간의 bidirectional 및 global 상호 작용을 수행하여 양방향 일치 네트워크(IMN)를 제안했습니다.

2.2 Persona for Chatbots

Chit-chat 모델은 일반적으로 각기 다른 화자와 함께 많은 대화를 통해 훈련을 받았기 때문에 일관된 성격이 결여되어 있으며, 일반적으로 아주 최근의 대화에서만 발화를 생성하도록 훈련되기 때문에 명시적 장기 기억이 부족합니다.
Li(2016)는 background information and speaking style과 같은 개인의 characteristics 을 포착하기 위해 persona-based 뉴럴 대화 모델을 제안했습니다.
Miller(2016)는 key-value 메모리 네트워크를 제안했습니다.

여기서 key는 대화 기록, 즉 컨텍스트이고 value은 다음 대화 발화입니다.

Zhang(2018)은 대화 이력을 입력으로 고려한 다음 대화 이력과 결합할 페르소나에 주의를 기울이는 프로파일 메모리 네트워크를 제안했습니다.
Mazare(2018)는 먼저 외부 지식이 있는 대규모 코퍼스를 사용하여 모델을 사전 학습한 후 PERSONA-CHAT 데이터 세트에서 미세 조정하는 미세 조정된 페르소나 채팅(FT-PC) 모델을 제안했습니다.
일반적으로 이러한 모든 방법은 컨텍스트 수준의 페르소나 융합 전략을 채택했는데, 먼저 컨텍스트의 임베딩 벡터를 얻은 다음 전체 컨텍스트와 각 프로필 문장 간의 유사성을 계산하여 페르소나 표현을 획득했습니다.

그러나 그러한 페르소나 융합은 상대적으로 너무 coarse하다.
utterance-level representations of contexts은 활용되지 않습니다.

페르소나 표현을 유도할 때 페르소나와 각 응답 후보 간의 상호 작용도 무시됩니다.
즉 보통은

context embedding + persona embedding <-> response embedding을 한다는 거 같다.
여기서 persona embedding은 context & persona 을 결합해서 만드는거 같다.
뭐 암튼, 이러한 방법은 utterance in context& persona을 각각 고려하지 않는다는 것이다.
이러한 고려가 필요한 이유가 utterance in context는 각각 persona와의 영향이 다르다는 것이다.
또한 persona embedding을 할때 response와의 embedding과의 상호작용이 안들어간다?

3 Task Definition

personas을 가진 대화 데이터세트 D가 주어졌을 때, 데이터세트의 예시는 (c, p, r, y)로 표현된다.
구치적으로 $c = \{ u_1, u_2, ..., u_{n_c} \}$은 utterances로써 $n_c$의 발화수를 가진 $\{u_m\}^{n_c}_{m=1}$을 가진 context을 표현한다.
$p=\{p_1, p_2, ..., p_{n_p}\}$는 $n_p$의 profile 수를 가지고 peofile sentences로써 $\{p_n\}^{n_p}_{n=1}$인 persona을 표현한다.
r은 response candidate을 표현한다.
y ∈ {0, 1}은 label을 가리킨다.

y=1은 r에 적절한 response (c, p)을 가리키고 반대는 y=0이다.

우리의 목표는 matching model g(c,p,r)을 D로부터 학습하는 것이다.
어떠한 context-persona-response triple (c, p, r)에 대해, g(c, p, r)은 matching 정도를 (c, p)와 r에서 측정한다.
모든 reponse candidate에 대한 softmax output layer은 이 모델에 적용되었다.
모델 파라미터들은 D에대한 multi-class cross-entropy loss function을 최소화하도록 학습된다.

4 IMN-Based Persona Fusion

persona 융합이 있는 이전 방법에서 사용된 모델 아키텍처는 그림 1(a)에 나와 있습니다.
이것은 먼저 context representation을 얻고나서, 전체 context과 각 profile sentence in persona와의 유사성을 계산한다.
즉 위 그림에서 memory network라고 한 것은 context vs profile 간의 유사성인듯?
persona representation을 얻기 위해 모든 profile sentences에 대해 attention weights이 계산된다.
마침내, persona representation은 concatenation 혹은 addition operation을 통해서 context reprsentation과 결합된다.
수식적으로, utterance의 concatenation이된 전체 context, context utterances, profile sentences의 respresentations은 각각 c, $\{u_m\}^{n_c}_{m=1}$, $\{p_n\}^{n_p}_{n=1}$으로 표기된다.

c, um and pn ∈ R^d

이전의 context-level persona fusion 방법들에서, persona 정보를 결합해서 enhanced context representation c+은 다음과 같이 계산된다.

즉 c, pn 사이의 유사도가 계산되고 이것을 attention weight로 판단하여서 pn의 weighted sum을 계산한다.
그리고 c와 concat해서 c+을 만드는 식.
예전에 많이쓰던 방식이다.

그리고나서, c+와 response representation사이의 similarity이 계산되어서 (c, p, r)의 matching 정도를 얻는다.
이 논문에서, 우리는 IMN을 기반으로 우리의 베이스라인 모델을 설계한다.
context와 response embeddings을 IMN 모델을 통해서 얻고 나서, 그림 1(a)의 context-level epersona fusion 구조가 persona information을 통합하는데 적용된다.
모든 모델 파라미터들은 end-to-end 방식으로 예측된다.
베이스라인 모델은 $IMN_{ctx}$로 이 논문에서 표현된다.
각 context가 여러 utternaces들로 구성되었고 이러한 utterances가 다른 profile sentences와 매칭할때 다른 역할을 하는 것을 고려해서, 우리는 fine-grained utterance-level할 때 그림 1(b)처럼 베이스라인 모델을 persona information과 결합한 베이스라인 모델을 제안한다.

이 모델은 $IMN_{utr}$으로 이 논문에서 표기된다.
먼저, 각 context utterance와 각 profile sentences 사이의 similarities들이 계산되고 각 context utterance의 enhanced representation $u^{+}_{m}$은 다음과 같이 계산된다.

즉 식 (1)과 똑같으나, c대신 각 context utterance가 비교 대상이다.

Then, these enhanced utterance representations are aggregated into the enhanced context representation as

그 다음, 이렇게 각 representation을 합친다.
여기서 RNN 혹은 attention-based aggregation가 적용될 수 있다.

5 Dually Interactive Matching Network

5.1 Model Overview (번역으로 흐름만)

개인화된 응답 선택에 대한 이전 연구에서는 페르소나를 주의 기반 상호 작용에 의해 컨텍스트 표현을 향상시키기 위한 supplementary 정보로 취급합니다.
이 논문에서는 개인화 응답 선택 작업을 dual matching problem로 공식화합니다.
selected 응답은 주어진 컨텍스트 및 페르소나와 각각 적절하게 일치해야 합니다.
여기에서 페르소나는 ranking response candidates의 컨텍스트와 동등하게 중요한 대응물로 간주됩니다.
context와 response간의 interactive 매칭, persona와 response간의 interactive 매칭이 DIM(Dual Interactive Matching Network)을 구성합니다.
DIM 모델은 5개의 레이어로 구성됩니다.
그림 2는 아키텍처의 개요를 보여줍니다.
각 계층에 대한 세부 정보는 다음 하위 섹션에서 제공됩니다.

5.2 Word Representation Layer

IMN(Gu 2019)에서 사용하는 설정을 따르고, 이는 사전 훈련된 일반적인 단어 임베딩, 작업별 훈련 세트에서 추정된 단어 및 문자 수준 임베딩을 결합하여 어휘 외 문제를 처리하여 단어 표현을 구성합니다.
형식적으로 컨텍스트에서 m번째 발화, 페르소나에서 n번째 프로필 문장 및 응답 후보의 임베딩은 Um = {um,i} lum i=1 , Pn = {pn,j} lpn j로 표시됩니다. =1 및 R = {rk} lr k=1이며, 여기서 lum, lpn 및 lr은 각각 Um, Pn 및 R의 단어 수입니다.
각 um,i, pn,j 또는 rk는 d 차원의 임베딩 벡터입니다.

5.3 Sentence Encoding Layer

문맥 발화, 프로필 문장 및 응답 후보는 양방향 장단기 기억(BiLSTM)에 의해 인코딩됩니다.
우리는 다음과 같이 계산을 표시합니다.

여기서 U¯m = {u¯m,i} lum i=1 , P¯ n = {p¯n,j} lpn j=1 및 R¯ = {¯rk} lr j=1입니다.
이 세 가지 BiLSTM의 매개변수는 구현에서 공유됩니다.
수식적으로 보면

Um: utterance in context이다. (1~lum 이거는 단어의 개수이다.)
즉 하나의 발화의 word embedding을 BiLSTM을 태워서 발화의 sentence encoding을 한다.
persona, response도 마찬가지

5.4 Matching Layer

컨텍스트와 응답 간의 상호 작용, 페르소나와 응답 간의 상호 작용은 이들 간의 일치 정도를 결정하는 데 유용한 일치 정보를 제공할 수 있습니다.
여기서 DIM 모델은 두 시퀀스 간의 전역 및 양방향 상호 작용을 고려하는 IMN 모델(Gu 2019)과 동일한 전략을 채택합니다.
컨텍스트-응답 매칭을 예로 들어 보겠습니다.
먼저, 문맥 표현 C ¯ = {ci } lc i=1 이고 lc = Pnc m=1 lum은 발화 표현 세트 {U¯m} nc m=1을 연결하여 형성됩니다.
그런 다음 각 튜플 {¯ci , ¯rk} 사이의 주의 가중치를 다음과 같이 계산하여 소프트 정렬을 수행합니다.
그 후, 로컬 추론은 컨텍스트와 응답 사이의 로컬 관련성을 양방향으로 얻기 위해 위에서 계산된 주의 가중치에 의해 결정됩니다.
문맥에 있는 단어의 경우 응답에 의해 전달되는 관련 표현은 다음과 같이 eik을 사용하여 식별되고 구성됩니다.
여기에서 {¯rk} lr k=1 의 내용 중 ¯ci 와 관련된 내용은 ~ci 를 형성하도록 선택됩니다.
그런 다음 C~ = [~c1, ..., ~clc ]를 정의합니다.
응답의 각 단어에 대해 동일한 계산이 수행되어 다음과 같이 컨텍스트에 의해 전달되는 관련 표현을 형성합니다.
and we define R˜ = [˜r1, ..., ˜rlr ].
collected information를 더욱 향상시키기 위해 {C¯, C~}와 {R¯, R~} 사이의 differences 와 element-wise products 을 계산한 다음 원래 벡터와 연결하여 다음과 같이 enhanced representations을 얻습니다.
지금까지 컨텍스트와 응답 간의 관련 정보를 수집했습니다.
향상된 컨텍스트 표현 Cb는 {Ubm} nc m=1과 같이 분리된 발화의 일치하는 행렬로 다시 변환됩니다.

여기서 마지막에 구해진 hat{C}는 hat{U}로 다시 쪼개진다.
즉 utterance-level로 간다는 듯.

페르소나-응답 매칭은 위에서 소개한 컨텍스트-응답 매칭과 동일하게 수행되며, 여기서 컨텍스트 발화 {U¯m} nc m= 대신 프로필 문장 {P¯ n} np n=1의 표현이 사용됩니다.
페르소나-응답 매칭의 결과는 {Pbn} np n=1 및 Rb ∗ 로 표시됩니다.

C와 마찬가지로 P에 대해서도 P<->R을 똑같은 과정을 하는데 이는 hat{P}, hat{U*}로 표긴한다.

수식적으로 보면,

식7: context와 response의 embedding 사이를 dot product한다.
여기서 context embedding은 식 4,5,6처럼 sentence embedding을 한 것
식8: 식7에서 구한 attention weight로 response embedding의 weighted sum으로 tilde{ci}을 구함
식9: 식8과 마찬가지
식10: tilde{ci}와 ci 사이의 difference와 elementi wise을 계산해서 [c, tilde{ci}, 차이, element wise] 이렇게 하나의 vector을 만든다.
그 다음 hat{C}는 hat{U}로 쪼개진다.

5.5 Aggregation Layer

집계 계층은 컨텍스트 발화, 프로필 문장 및 응답의 일치 매트릭스를 최종 일치 특징 벡터로 변환합니다.
먼저 각 매칭 행렬 Ubm, Rb, Pbn 및 Rb *는 BiLSTM에 의해 다음과 같이 처리됩니다.

5.4에서 구해진 것들을 BiLSTM을 통해서 utterance-level의 feature을 구한다.

여기서 4개의 BiLSTM은 구현에서 동일한 매개변수를 공유합니다.
그런 다음, 집계된 임베딩은 max pooling 및 last-hidden-state pooling operations에 의해 다음과 같이 계산됩니다.

max값과 last hidden 값을 concat한다.

다음으로, uˆ agr m 및 pˆ agr n의 시퀀스를 더 집계하여 각각 컨텍스트 및 페르소나에 대한 임베딩 벡터를 얻습니다.
Context aggregation

utterance-level을 BiLSTM을 태워서 context-level로 만든다.
그 후, 마찬가지로 max, last hidden state pooling 두개를 취한다.

Persona aggregation

여기서는 식20,21과 달리 profile들이 독립적이기 때문에 attention-base aggregation을 한다고 한다.
where w and b are parameters need to be estimated during training.

마지막으로, 최종 일치하는 특징 벡터는 컨텍스트, 페르소나 및 응답 임베딩을 다음과 같이 연결한 것입니다.

여기서 처음 두 기능은 컨텍스트 응답 일치를 설명하고 마지막 두 기능은 페르소나-응답 일치를 설명합니다.

5.6 Prediction Layer

그런 다음 최종 일치 기능 벡터는 softmax 출력과 함께 MLP(다층 퍼셉트론) 분류기로 전송됩니다.
여기서, MLP는 도출된 매칭 특징 벡터를 기반으로 (c, p, r) 트리플 매칭 여부를 적절하게 예측하도록 설계된다.
마지막으로 MLP는 일치 정도를 나타내는 확률을 반환합니다.

6 Experiments

6.1 Dataset

우리는 페르소나를 조건으로 한 다중 회전 대화가 포함된 PERSONA-CHAT 데이터 세트(Zhang2018)에서 제안된 방법을 테스트했습니다. 데이터 세트는 훈련을 위한 8939개의 완전한 대화, 검증을 위한 1000개, 테스트를 위한 968개의 대화로 구성됩니다. 응답 선택은 완전한 대화의 모든 턴에서 수행되며, 결과적으로 교육을 위한 65719개의 대화, 검증을 위한 7801개의 대화, 테스트를 위한 7512개의 대화가 생성됩니다. 긍정적인 응답은 사람의 실제 응답이고 부정적인 응답은 무작위로 샘플링됩니다. 양성 응답과 음성 응답의 비율은 훈련, 검증 및 테스트 세트에서 1:19입니다. 훈련용 페르소나는 955개, 검증용 100개, 테스트용 100개가 있으며 각각은 3~5개의 프로필 문장으로 구성됩니다. 이 작업을 더 어렵게 만들기 위해 수정된 페르소나 설명 버전도 원래 설명을 바꾸거나 일반화하거나 전문화하여 제공됩니다. 대화에서 두 화자의 페르소나를 사용할 수 있으므로 응답 선택 작업은 각각 화자의 페르소나(“자기 페르소나”) 또는 대화 상대의 페르소나(“그들의 페르소나”)에 따라 조건화될 수 있습니다.

6.2 Evaluation Metrics

우리는 이전 작업(Zhang 2018)에서와 동일한 평가 메트릭을 사용했습니다.
각 모델은 주어진 컨텍스트 c 및 페르소나 p에 대해 사용 가능한 후보 중에서 가장 일치하는 응답을 선택하는 것을 목표로 했습니다.
우리는 hit@1로 표시된 recall of the true positive replies을 계산했습니다.
또한 모든 후보자에 대한 정답 순위를 고려하기 위해 MRR(Mean Reciprocal Rank)(Voorhees, 1999) 메트릭도 채택되었습니다.

6.3 Training Details

6.4 Experimental Results

테이블 2는 우리가 PERSONA-CHAT 데이터세트에 대해 reproduced IMN 모델의 평가 결과와 persona들을 사용하지 않은 이전의 방법들을 보여준다.
이것은 IMN 모델이 다른 모델들보다 hits@1에서 28.9% 이상의 margin 뛰어남을 보여준다.
위에서 설명했듯이, personalized response selection을 위한 우리가 제안한 모델들은 IMN에서 설계되었다.
테이블 3은 다양한 persona configuirations아래의 PERSONA-CHAT에서 ours와 이전의 방법들에 대한 평가 결과들을 보여준다.
t-test는 우리가 제안한 모델들 사이의 차이점을 보여준다.

즉 IMN_utt와 DIM과 베이스라인 모델들과의 차이점이 있다.
즉, IMNctx는 p-value < 0.01로 통계적으로 유의했습니다.

우리는 utterance level에서 fine-grained persona fusion이 original self personas을 조건으로했을 때 IMN_ctx과 비교해서 IMN_utr이 hits@1을 2.4% 향상, MRR을 1.9% 향상시킨다.

즉 IMN_utr > IMN_ctx이고, IM_utr 버전이 context가 아닌 utterance별로 영향을 파악하기 위한 모델링이라고 보면 된다.

DIM 모델은 베이스라인인 IMN_ctx보다 margin hist@1에서 14.5%, MRR에서 10.5%만큼 뛰어나다.
large-scale corpus을 사용해서 pretrained되고나서 PERSONA-CHAT 데이터세트에대해 fine-tuned된 FT-PC모델과 비교해서, DIM 모델은 revised self personas을 조건으로했을 때 hits@1에서 10.0%만큼 뛰어나다.
DIM의 다른 장점은 pretraining과 external knoweldge없이 end-to-end 모드로 학습된다.
마지막으로, DIM 모델은 original self personas을 조건일 때 이전의 모델들보다 hits@1에서 27.7% 만큼 뛰어나다.
Improvement of Using Personas

표 3에서 페르소나 조건을 추가한 후의 손익을 나타내는 숫자를 살펴보면, 컨텍스트 레벨 페르소나 융합이 원래의 셀프 페르소나를 사용할 때 이전 모델의 성능을 크게 향상시키는 것을 알 수 있습니다.
그러나 IMNctx 모델에 의해 달성되는 이득은 제한적입니다.
한 가지 가능한 이유는 IMN 모델이 응답 선택을 위한 일치 기능을 얻기 위해 컨텍스트와 응답 간의 주의 기반 상호 작용을 수행하기 때문입니다.
따라서 그림 1(a)에 표시된 컨텍스트 임베딩에는 컨텍스트와 응답 모두의 정보가 포함되어 있으며, 이는 Eq(1)에 표시된 다음 컨텍스트 수준 페르소나 퓨전에는 부적절할 수 있습니다.
DIM 모델에 의해 달성된 개선은 이 문제를 해결하기 위해 이중 일치 프레임워크를 채택하기 때문에 훨씬 더 높습니다.

Original vs. Revised

기존 페르소나를 사용하는 경우와 비교하여 수정된 페르소나를 조건으로 하는 모델이 유용한 페르소나 정보를 추출하는 것이 더 어렵습니다.
한 가지 가능한 이유는 페르소나와 응답과의 관계를 이해하는 데 어려움이 증가하여 응답과 다시 표현, 일반화 또는 전문화하여 수정된 페르소나 간에 공유되는 단어가 적기 때문입니다.
예를 들어서, 모델들에게 original profile “Autumn is my favorite season.”과 response “This is my favorite time of the year season-wise.”의 매칭정도를 비교하는 것은 revised profile “I love watching the leaves change colors.”와 response와 비교하는 것보다 쉽다.
반대로, 우리가 제안한 DIM 모델은 수정된 자기 페르소나를 조건으로 했을 때 6.9%의 hit@1 개선과 5.4%의 MRR 개선을 얻었습니다, 이는 이 모델에서 사용된 직접적이고 상호작용적인 페르소나-응답 매칭에 기인할 수 있습니다.

Self vs. Their

표 3에서 볼 수 있듯이 대화 상대의 페르소나를 조건으로 모델을 구성하면 큰 이득을 얻을 수 없습니다.
우리가 제안한 방법으로는 큰 성능 손실이 없지만 이전 모델의 손실은 hit@1 측면에서 2.4%에서 7.3%입니다.

7 Analysis

7.1 Ablations

제안된 DIM 모델에 따른 이중 매칭 프레임워크의 중요성을 입증하기 위해 original self personas를 사용하여 절제 테스트를 수행했으며 결과는 표 4에 나와 있습니다.
개인 응답 매칭과 컨텍스트-응답 매칭이 모두 DIM 모델의 성능에 기여함을 알 수 있습니다.
컨텍스트가 응답 선택에 대한 fundamental semantic descriptions을 제공하기 때문에 context personal matching가 더 중요하다는 것이 합리적입니다.
한편, single persona-response matching도 48.8%의 hit@1 및 60.9%의 MRR을 달성할 수 있어 페르소나 정보를 활용하여 가장 일치하는 응답을 선택하는 것이 유용함을 보여줍니다.

7.2 Interactive Matching in DIM

DIM 모델에서 컨텍스트와 응답, 페르소나와 응답 간의 상호작용 매칭의 효과를 조사하기 위해 response-to-context and response-to-persona attention을 (식 9에서 사용한) 시각화하여 사례 연구를 수행했습니다.
결과는 그림 3에 나와 있습니다.
응답에서 "dog"와 같은 일부 중요한 단어가 컨텍스트 응답 일치 특성을 도출하기 위해 컨텍스트에서 "animals"와 같은 관련 단어를 선택했음을 알 수 있습니다.

“I love animals and have two dogs.”와 같은 중요한 프로필 텍스트입니다.
또한 persona-response matching features을 얻기 위해 큰 관심 가중치를 얻었습니다.
이 실험 결과는 personalized response selection 작업을 이중 일치 문제로 공식화했음을 확인합니다.

7.3 Transfer Test

Transfer 테스트는 일치하지 않는 유형의 페르소나를 사용하여 DIM 모델을 교육하고 평가하여 수행했습니다.
결과는 표 5에 보고되어 있습니다.
DIM 모델이 훈련과 동일한 유형의 페르소나에서 테스트할 때 더 나은 성능을 달성했음을 보여줍니다.
한편, 수정된 페르소나에 대해 학습하고 원래 페르소나에 대해 테스트한 모델은 원래 페르소나에 대해 학습하고 수정된 페르소나에 대해 테스트한 모델보다 손실이 적었으며,

이는 수정된 페르소나가 원래의 페르소나보다 DIM 모델에 더 나은 일반화 기능을 제공할 수 있음을 보여줍니다.

8 Conclusions

이 논문에서, 우리는 personalized response selection 테스크를 dual matching 문제로 형식화하고 context와 persona가 동시에 주어졌을 때, 적절히 매칭되는 response을 찾는다.
새로운 모델인 DIM이 진행되었고, 이는 persona와 response사이뿐만아니라 context와 response사이의 상호매칭을 병력적으로 수행해서 personalized response selection을 위한 matching feature을 이끌어낸다.
실험적인 결과들은 DIM이 context-level 혹은 utterance-level persona fusion IMN 모델들보다 향상됨을 보여주고, 이전의 방법들과 뛰어나서 PERSONA-CHAT 데이터세트의 새로운 SoTA을 달성한다.
추후, 우리는 response selection을 위한 대화 partener's persona의 사용흐로 더 좋은 모델들을 탐구할 것이다.

Reference

https://arxiv.org/pdf/1908.05859.pdf

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-145, Dually Interactive Matching Network for Personalized Response Selection in Retrieval-Based Chatbots, EMNLP 2019

◼ Comment

0 Abstract

1 Introduction

2 Related Work

2.1 Response Selection

2.2 Persona for Chatbots

3 Task Definition

4 IMN-Based Persona Fusion

5 Dually Interactive Matching Network

5.1 Model Overview (번역으로 흐름만)

5.2 Word Representation Layer

5.3 Sentence Encoding Layer

5.4 Matching Layer

5.5 Aggregation Layer

5.6 Prediction Layer

6 Experiments

6.1 Dataset

6.2 Evaluation Metrics

6.3 Training Details

6.4 Experimental Results

7 Analysis

7.1 Ablations

7.2 Interactive Matching in DIM

7.3 Transfer Test

8 Conclusions

댓글

댓글 쓰기