■ Comment

이 논문은 페북에서 PERSONA-CHAT의 데이터를 제시한 논문인다.

이전의 채팅에서 불만족스러운 데이터세트를 보완했다고 한다.
즉 대화를 할 때, 각 사람들에게 persona을 부여해서 만들었고 만드는데 굉장히 공수를 들인 것 같다.

이 데이터를 제시하면서 다양한 모델로 실험을 했는데, ranking 방법과 generative 방법이다.
ranking은 말그대로 candidate에서 가장 그럴싸한 답변을 뽑는 것이고 generative은 생성하는 것이다.

데이터 구성을 보면, persona가 주어진 두 명의 사람이 대화를 하는 것인데
추가적으로 각 대화에서 distractor로 (실제 반응이 아닌) 19개의 문장이 추가적으로 주어진다.
즉, 주어진 데이터로 sentence selection (retreival) task도 수행해볼 수 있는 것이다.
따라서 실험결과를 보면 hits@1은 후보 문장에서 정답을 얼마나 잘 검출했는지를 의미하는 것이다.

실험을 할 때도, 4가지 시나리오가 (persona을 어떻게 부여할 지) 있고 2가지 버전을 (original vs revised) 사용할 수 있어서 총 8가지 경우가 있다. (Table 5)

일반적으로 생각해보면, revised 버전 + non persona가 실제 상황일 것 같다.

아무튼 이 논문의 요지는 PERSONA-CHAT 데이터세트를 제공해줬고 이 데이터을 어떻게 활용하고 있는지를 이젠 살펴봐야 할 것 같다.

0. Abstract

칫챗 모델들은 다양한 문제를 가진다고 알려져 있다.

lack specificity(특이성)
일관되지 않은 personality(인격)과 captivating(매력적, 몰입되지)이지 않다.

이 연구에서는 우리는 profile 정보의 조건으로 조금 더 채팅에 몰입되도록 태스크를 제시한다.
우리는 데이터를 모으고 모델을 다음에 의해 학습한다.

(i) condition on their given profile information; and
(ii) information about the person they are talking to,
그 결과 다음 utterance 예측을 측정해 대화를 향상시킨다.

(ii)가 처음에 안알려져있기 때문에 (대화를 처음 시작할땐), 우리의 모델은 personal topics와 함께 partener를 끌어들이도록 학습이되고 우리는 대화 결과를 사용하여 interlocutors(대화 참여자)에 대한 profile information를 예측할 수 있습니다.

1 Introduction

최근 NLP와 대화 연구가 성공적임에도 불구하고 사람과 기계사이의 대화는 여전히 초창기이다.
이것은 단지 최근에 뉴럴 모델이 충분한 capacity를 가지고 큰 데이터세트에 접근할 수 있어서 그들이 칫챗 세팅에서 meaningful response을 생성할 수 있다.
여전히, 짧은 시간안에 generic 칫챗 모델과의 대화는 그들이 약점을 금방 보여준다. (Serban et al. , 2016 ; Vinyals and Le , 2015).
칫챗 모델에 대한 흔한 이슈는 다음과 같이 있다.

(i) the lack of a consistent personality (Li et al. , 2016a) as they are typically trained over many dialogs each with different speakers,
(ii) the lack of an explicit long-term memory as they are typically trained to produce an utterance given only the recent dialogue history (Vinyals and Le , 2015); and
(iii) a tendency to produce non-specific answers like “I don’t know” (Li et al., 2015).

이러한 3가지 문제들이 결합되어 사람이 봤을 때, 전체적인 경험이 불만족스러운 것을 생성한다.
우리는 이러한 문제들이 일반적인 칫챗에 대해 좋은 public한 가능한 데이터세트 떄문이라고 믿는다.
현재 대화 모델의 저품질과 이러한 모델들을 평가하는 어려움 때문에 칫챗은 종종 end-application에서는 무시되고 있다.
대신에, 연구 커뮤니티는 taskoriented 대화에 초점을 맞추고 있다.

비행기 혹은 음식점 예약 혹은 singleturn information seeking(i.e. question answering)과 같은 것

나중에 단순하고, 도메인의 성공에도 불구하고 많은 인관과의 대화는 socialization, personal interests and chit-chat에 초점을 맞추고 있다는 것은 알려져 있다 (Dunbar et al., 1997).
예를들어, 트위터에 있는 포스터에서 5%보다 적은것이 질문인 반면, 80%는 소위 “Meformers”(Naaman et al., 2010)가 작성한 personal emotional state, 생각 또는 활동에 관한 것입니다.
이 연구에서는, 우리는 profile이라고 불리는 textual descriptions의 여러 문장들을 인코딩한, 구성가능하지만 지속적인 persona을 가지는 것을 칫챗 대화 agents에 부여하여 좀 더 매력적으로 만든다.
이 profile은 memory-augumented 뉴럴 네트워크에 저장이되고 persona-free model보다 좀 더 personal, specific, consistent and engaging responses을 만들도록 사용된다.

따라서 칫챗모델에서 일반적인 이슈들을 줄여준다.

같은 메커니즘을 사용하여, dialogue의 persona에 대해 이전의 정보는 같은 방법으로 사용될 수 있다.
우리의 모델들은 따라서 personal topics에 대해 ask하고 answer question하도록 학습이되고 dialogue가 speaking partner의 persona의 모델을 구성하도록 사용이 된다.

여기서 speaking partner란? 상대방의 persona인가?

이런 모델들을 학습을 지원하기 위해, 우리는 PERSONA-CHAT 데이터세트를 제시한다.

PERSONA-CHAT: 무작위로 짝을 지어 주어진 인물의 역할을 하도록 요청받은 군중 노동자들 사이의 162,064개의 utterances로 구성된 새로운 대화 데이터 세트 (다른 크라우드 작업자가 할당 및 작성함).
쌍을 지은 workers은 자연스럽게 대화하도록 요청되고 대화중에 서로를 알아간다.
이러한 과정들은 흥미롭고 매력적인 대화가 우리의 agents가 모방하도록 한다.

대화중에 next utterance prediction 태스크를 연구할 때, 우리는 다양한 모델들을 비교한다.

both generative and ranking models, including Seq2Seq models and Memory Networks (Sukhbaatar et al., 2015) as well as other standard retrieval baselines.

우리는 실험적으로 persona 정보를 가지는 agents을 조건으로 generative와 ranking case 둘 다 next dialogue utterance의 예측을 향상시켰다.
PERSONA-CHAT dataset은 이러한 이슈들을 줄여서 연구가 되도록 용이하게 디자인되었다.

전통적인 칫챗 모델들이 마주하고 있으며, 그들에게 페르소나를 부여함으로써 그러한 모델들을 더 일관되고 매력적으로 만드는 것을 목표로 하고 있다.

OpenSubtitles 및 Twitter 데이터셋을 사용하여 구축된 채팅 모델과 비교하여, 인간 평가는 우리의 데이터셋이 persistent하고 recognizable profile의 조건을 통해 fluent하고 consistent인 동시에 더 매력적인 모델을 제공한다는 것을 보여준다.

즉 이전의 데이터세트들보다 Persona Dataset가 더 좋다는 것을 말한다.
실제로 그래서 이 데이터세트를 최근 연구에서는 많이 쓴다.

2 Related Work

전통적인 dialogue systems은 dialogue state tracking와 response generators와 같은 blocks으로 구성되어 있고 일반적으로 레이블링된 internal dialogue state에 적용되고 정확히 user intent (i.e., goal-oriented dialogue)가 정의된다.
가장 성공적인 goal-oriented dialogue systems은 partially observable Markov decision processes (POMDPs)을 모델링한다 (Young et al., 2013).
이러한 모든 방법들은 일반적으로 칫챗 세팅을 고려하지 않고 개성을 표현하기보다 functional goals (e.g. booking an airline flight)을 달성하는데 집중을 한다.

즉 goal-oriented 방법들은 칫챗 모델을 만드는 것과 다르다는 것.

특별히, 많은 태스크들과 데이터세트들은 좁은 도메인에서 제한적으로 사용가능하다.
Non-goal driven dialogue 시스템들은 Weizenbaum’s famous program ELIZA으로 되돌아가며 hand-coded 시스템들은 요즘에도 사용이 지속되고 있다.
예를 들어, 최근 해결법은 open-ended 대화 시스템이 Alexa 챌린지에 빌드되는데, hand-coded와 machine-learned 요소들과 결합된다.
매우 간단한 통계적 시스템들 사이들은 hand-coding보다 데이터를 기반으로한 도메인에 사용이 될 수 있고 information retrieval 모델들이다.

IR 모델들은 최근 대화 히스토리로 그들의 매칭스코어을 기반으로 검색(retrieve)하고 랭킹(rank) 매긴다.

We use IR systems as a baseline in this work.
end-to-end 뉴럴 접근법은 최근에 관심이 증가하는 모델의 한 클래스다.
유명한 방법중 하나는 generative recurrent 시스템으로 seq2seq와 같은 것으로 dialogue에 적용한다.
LM에 뿌리에 있는 것들은 문법적으로 일관성있고 novel한 response을 생성할 수 있으나, 그들의 memory-free(메모리가 없는) 접근법은 이전에 말했듯이, long-term 일관성과 지속적인 personality에 약점이 있다.
아직 초기단계인 문제를 해결하기위한, 믿을만한 방향은 적절한 메모리를 제공하거나 학습에의해 memory augmented 네트워크를 대신사용하는 것이다.
Serban는 대화 시스템 학습에 가능한 코퍼스를 리스팅했다.

논문이름: A survey of available corpora for building data-driven dialogue systems

아마도, 칫챗 학습과 가장 관련있는 모델들은 OpenSubtitles과 같은 movie scrips와 Cornell Movie-Dialogue 코퍼스와 Reddit과 Twitter와 같은 웹플랫폿에서의 대화들의 데이터세트를 기반으로 한다.

이러한 것들은 뉴럴 접근법의 학습에 사용된다.

이러한 데이터세트에 순진하게 학습된 모델들은 consistent personality의 부족함으로 이끌고 그들은 많이 다른 스피커들의 평균적인 모델을 학습할 것이다.

즉 Opensubtitles, movie scripts, cornell movie-dialogue, reddit, Twitter은 어떤 사람의 개성과 topic 주제들에 대한 학습을 할 수는 없다!

더 나아가서, 데이터는 모델이 대화 파트너의 personality와 topic interests의 knowledge을 이해하고 유지하는 것에 도움이 되지 않는다.
Serban에 따르면, 대화 시스템의 personalization은 지금까지 많은 관심을 받지 않은 중요한 태스크라고 한다.
goal-oriented 대화의 경우, 몇몇 연구는 agent가 사람의 profile을 인식하고 그에따라 대화를 조정하지만 agent 그자체에는 personality가 없다.
칫챗 세팅에서는, 가장 관련있는 연구는 Li이다.

Twitter 코퍼스에서 각각 유저들에 대해, personas은 한 사람의 스피커의 distributed embedding을 통해 알아내서 background 정보와 speaking과 같은 개인적인 특성을 얻는다.
그리고 그들은 그러한 vector을 사용하여 같은 speaker에 대해 seq2seq 모델의 출력이 향상됨을 보여준다.
그들의 연구는 이 논문과 달리, 상대방을 알게함으로써 다른 speaker에 대해서는 집중하지 않는다.

For that reason, our focus is on explicit profile information, not hard-to-interpret latent variables.

3 The PERSONA-CHAT Dataset

이 연구의 목적은 좀 더 매력적이고 개인적인 칫챗 dialogue을 용이하도록 한다.
PERSONA-CHAT 데이터세트는 크라우드소스된 데이터세트이며, Amazon Mechanical Turk을 통하여 수집되었다.

AMT는 각 화자의 쌍의 대화로 화자의 profile이 주어진다.

The data collection consists of three stages:

(i) Personas: we crowdsource a set of 1155 possible personas, each consisting of at least 5 profile sentences, setting aside 100 never seen before personas for validation, and 100 for test.
(ii) Revised personas: to avoid modeling that takes advantage of trivial word overlap, we crowdsource additional rewritten sets of the same 1155 personas, with related sentences that are rephrases, generalizations or specializations, rendering the task much more challenging.
(iii) Persona chat: we pair two Turkers and assign them each a random (original) persona from the pool, and ask them to chat. This resulted in a dataset of 162,064 utterances over 10,907 dialogs, 15,602 utterances (1000 dialogs) of which are set aside for validation, and 15,024 utterances (968 dialogs) for test.

The final dataset and its corresponding data collection source code, as well as models trained on the data, are all available open source in ParlAI2 .
In the following, we describe each data collection stage and the resulting tasks in more detail.

3.1 Personas

우리는 크라우드소스 작업자에게 캐릭터(persona) 설명을 5개의 문장을 사용하여 single example을 제공하였다.

I am a vegetarian.
I like swimming.
My father used to work for Ford.
My favorite band is Maroon.
I got a new job last month, which is about advertising design.
위 5문장을 일렬로 붙여 한 개의 예제로 persona을 설명한 것

우리의 목표는 자연스럽고 서술가능한 profiles을 만들고 화자가 대화에 참여할 수 있는 사람의 일반적인 관심 토픽을 포함하는 것이다.
personas은 Turksers의 real profiles이 아니기 때문에, 데이터세트는 personal information을 포함하지 않는다. (and they are told specifically not to use any)
우리는 작업자들이 최대 15개 단어를 가지도록 짧은 문장을 만들어달라고 요쳥했다.
이것은 사람과 기계 모두에게 장점이다.

if they are too long, crowdsourced workers are likely to lose interest, and for machines the task could become more difficult.

3.2 Revised Personas

대화 데이터세트를 구성할 때, 일반적으로 텍스트데이터에서 어려운점은 연구가 진행되기 위하여, 태스크는 주의깊게 구성이 되어서 현재 기술에 맞게 너무 쉽지도 않고 너무 어렵지도 않게 되어야 한다.
텍스트 페르소나에 대한 컨디셔닝의 한 가지 문제점은 요청하지 않더라도 인간이 무의식적으로 프로파일 정보를 구두로 또는 단어 겹침으로 반복 할 위험이 있다는 것입니다.

이것은 머신러닝 태스크가 덜 챌린지하게하고 솔루션은 어려운 태스크를 일반화하지 못한다.
이것은 최근 데이터세트의 문제점으로, 예를 들어, 사용되는 SQuAD 데이터세트에서 사용되는 기술들은 word overlap 문제에서 고통받는다.

이러한 문제를 경감시키기 위해, 우리는 우리가 수집한 origianl personas을 새로운 크라우드워크에게 설명하고 그들에게 문장을 “a related characteristic that the same person may have”에 관한 새로운 문장을 rewrite하도록 하고, revision은 rephrase, generations or sepcializations 될 수 있다.
예를 들어, “I like basketball”은 “I am a big fan of Michael Jordan” 으로 수정될 수 있고 그들이 같은 뜻을 가지지는 않지만, 같은 persona가 둘 다 포함할 수 있기 때문이다.
Revision 태스크에서, 작업자들은 original words을 복사해서 사소하게 문장을 rephrase하지 말라고 지시한다.
그러나, entry stage 동안 만약 non-stop 단어가 복사되면 우리는 그들에게 warning을 주었고 그들에게 지시사항을 따라달라고 rehphase을 요청했다.
만약 “My father worked for Ford.”가 “My dad worked in the car industry”로 수정될 수는 있지만, “My dad was employed by Ford.”로는 word ovelap 때문에 수정될 수 없다.
Table 1 참고

3.3 Persona Chat

personas을 수집하고나서, 우리는 personas을 조건으로 그들 스스로 대화를 수집하였다.
각 대화에서, 우리는 랜덤하게 두 명의 크라우드워커를 쌍을 짓고, 주어진 캐릭터의 일부분으로써 다른 워커와 함께 칫챗을 하라는 지시사항을 준다.

그러고나서, 우리는 그들의 파트너와는 다른 우리의 풀속에서 랜덤한 persona을 선택해서 준다.

지사사항들은 quite terse(간결한)하고 간단한 목적으로 “chat with the other person naturally and try to get to know each other” 하도록 그들에게 요청한다.
초기 연구에서 우리는 크라우드워커들에게 그들 스스로에대해 얘기하는 경향이 너무 강하다는 것을 알렸고 그래서 우리는 챗 파트너와 질문하거나 대답하는 것에 도움이 될만한 추가적인 지시사항을 주었고 이것은 도와줄 것이다.

우리는 또한 high quality 대화에게 보너스를 주었다.
dialog는 turn-based이고 메시지당 최대 15단어을 가진다.
우리는 사소하게 캐릭터 설명을 복사해서 메세지에 넣지 말라는 지시사항을 줄 뿐만 아니라, 간단하게 string 매칭을 통하여, 그들이 그것을 시도할 때 명백하게 code로 error을 날려주었다.

우리는 최소한의 대화 길이는 랜덤하게 6~8 turns으로 정의하였다.

3.4 Evaluation

우리는 대화 히스토리가 주어졌을 때, next utterances을 예측하도록 일반적인 대화 태스크에 초점을 맞추지만, 이 태스크가 profile information가 학습 에이전트에게 주어졌을 때와 아닐 때 둘 다에 대해 모두 고려한다.
우리의 목표는 챗봇들이 개성을 가지거나 peronas가 대화가 유저에게 좀 더 매력적이게 사용되는 미래의 연구에 대해 흥미로운 방향을 제시한다.
우리는 4가지 가능한 시나리오를 고려한다.

conditioning on 1) no persona, 2) your own persona, 3) their persona, or 4) both.

이러한 시나리오들은 original personas 혹은 revised 된 것을 사용하도록 시도될 수 있다.
우리는 3가지 metrics으로 평가한다.

(i) the log likelihood of the correct sequence, measured via perplexity,
(ii) F1 score, and
(iii) next utterance classification loss, following Lowe et al. (2015).
(iii)을 말하는 것 같은데 N(=19 세팅)개의 랜덤 distractor 반응으로 구성되 어있고, 모델은 이들 중에서 가장 좋은 반응을 선택하여 정답이면 score가 1을 가지고 틀리면 0이다 (called hits@1 in the experiments).

4 Models

우리는 next utterance prediction을 위한 모델의 두 개 클래스를 고려한다.

ranking models and generative models
ranking 모델들은 학습 세트에서 utterance을 가능한 후보 응답으로 고려하여 next utterance을 생성한다.
generative models은 대화 히스토리를 (가능하면 persona도) 조건으로 novel sentences을 생성하고나서 word-by-word 응답을 생성한다.

주어진 후보를 생성할 확률을 계산하고 그 점수에 따라 후보를 순위 매김으로써 후자를 순위 모델로 평가할 수 있음에 주목한다.

4.1 Baseline ranking models

우리는 두 개의 베이스라인 모델을 고려한다.

IR baseline (Sordoni et al., 2015) and
a supervised embedding model, Starspace (Wu et al., 2017)

많은 IR varinats가 있는 동안, 우리는 가장 간단한 것을 적용했다.

학습 데이터세트에서 가장 유사한 메세지를 찾아서 exchange에서 응답으로 출력을 내뱉는 것. (아마 유사한 메세지에 대응되는 쌍의 출력을 추출한다는 것 같음)

Similarity는 bags of words사이의 tf-idf weighted cosine simlarity으로 측정된다.

즉 주어진 문장과 학습 데이터세트의 각 문장들이 주어질 때, 단어의 bog로 tf-idf로 cosine 값을 계산하다는 것인 듯

Starspace는 최근 모델로 information retreival을 수행하나 dialog와 next utterance사이의 similarity을 학습해야 한다.

margin ranking loss와 k-negative sampling을 사용하여 태스크을 위한 embeddings을 optimizing한다.

similarity function은 sim(q, c′)이고 query q와 candidiate c'의 word embedding의 합의 cosine similarity이다.

아마도?) q=[q1,q2,q3]의 3가지 word embedding 벡터가 있고 c=[c1,c2]의 벡터가 있으면 sim((q1+q2+q3), (c1+c2))을 했다는 것인가?

dicrionary D의 word embeddings은 W로 Dxd matrix이고 Wi는 ith word(row)을 가리키고 d-dimensional embedding을 야기한다.
IR과 StarSpace의 두 가지 방법 모두 profile을 통합하기 위해 단순히 query vector에 bog을 concat한다.

즉 여기서는 profile을 따로 embedding 한다기 보다는 query에 단순히 concat하여서 이를 이용하여 학습/테스트 하는 것 같음.

4.2 Ranking Profile Memory Network

이전 두 모델 모두 대화 히스토리와 결합하여 profile 정보를 사용하므로 next utterances을 결정할 때 두 모델(IR, Starspace)을 구별 할 수 없습니다.
이 모델에서, 우리는 대신에 대화 히스토리을 입력으로 memory network을 사용하여 profile에 대한 attention을 수행하여 입력과 profile을 결합하여 관련있는 lines을 찾아내고 최종적으로 next utterances을 예측하게 한다.
우리는 Starspace 모델과 same representation와 loss을 사용하고 profile없으면(없는 시나리오에선) 두 모델들은 동일하다.

4.2에서 말하는 것은 starspace + profile을 통한 memory network?
즉, 위와 달리, profile을 단순히 concat해서 사용하지 않는다?

profile이 사용가능할 때, input q와 profile sentences pi와 함께 유사도를 계산하여 attention을 수행하려고 softmax,와 weighted sum을 다음과 같이 진행된다.

candidates c′는 sim(q+, c′ )을 사용해서 랭킹된다.

여기에 표시된 것처럼 하나 이상의 profile에 대해 attention의 여러 개의 "hops"을 수행 할 수도 있습니다. (매개 변수 스윕에서 큰 이득을 얻지는 못했지만)

4.3 Key-Value Profile Memory Network

key-value KV 메모리 네트워크는 keys에 대한 attention을 수행하고 (기존의 같은 keys 대신) values을 출력함으로 향상시키고, 이것은 task와 key-value pairs의 정의에 의존적인 메모리 네트워크보다 성능이 좋다.
여기서, 우리는 이 모델을 대화에 적용하고 key을 대화 히스토리로 고려하고 (학습 데이터세트로부터) values을 next 대화 utterances로 고려한다.

reference 논문에 있는 그림인데, (k, v) 메모리들이라는 것이 (대화 히스토리, next utternace) 개념이다.

이를 통해 모델은 현재 대화에 대한 예측에 영향을주기 위해 직접 사용할 수있는 과거 대화를 기억할 수 있습니다.
우리가 선택한 모델은 profile의 첫 번째 hop에서 설명되는 profile 메모리 네트워크가 동일하고, 2번째 hop 모델에서는 $q^{+}$ 가 keys에대해 attend 되는데 사용되고 $q^{++}$ 을 생성되는데에 values의 weighted sum을 출력한다.

여기서 $q^{+}$ 은 4.2절에서 말한 것과 같다는 것인 듯
이거를 다시 attend 시켜서 $q^{++}$ 을 사용한다.

이것은 그리고나서 이전과 같이 sim( $q^{++}$ , c′ )을 사용해서 candidates c'을 랭킹매긴다.

참고) 4.2절에서는 sim( $q^{+}$ , c′ )을 가지고 랭킹매김.

(key-value) 쌍의 셋은 매우 크고 이것이 학습을 매우 느리게 할 수 있다.
우리의 실험에서는, 우리가 간단하게 profile memory network을 학습하고 그 모델의 같은 weights을 사용하여 test time에 적용했다.
모델을 학습하는 것은 직접적으로 아마 가장 좋은 결과를 보여줄 것이나 휴리스틱은 originial network보다 원래 더욱 장점이 있다는 것이 이미 증명이 되어있다.
4.1~4.3은 ranking 기반의 방법으로 문장을 생성하는 것이 아니라, 기존의 candidiates에서 하나를 선택하는 것이다.

4.1은 학습이 아닌 tf-idf을 기반으로 cosine sim을 이용한 IR, Starspace의 방법
4.2은 starsapce+profile-attention의 방법으로 학습하는 것
4.3은 4.2의 변형느낌으로 (정확히는 모르겠으나, QA할 때처럼, key와 value 사이를 서로 attention 한다는 말인 거 같음) 학습하는 것
어찌되었든 랭킹방법은 생성이 아니기 때문에 Table3의 실험결과를 보면 PPL을 측정하지 못한다

4.4 Seq2Seq

일반적으로 알려진 방법 그대로이다.
$h^{e}_{t} = LSTM_{enc}(x_t | h^{e}_{t-1})$
Glove word embedding을 사용하고 h는 hidden-state이고 $h^{e}_{t}$ 가 LSTM-dec의 초기값으로 들어가서 문장을 생성한다.

negative log likelihood으로 위를 학습한다.
Persona 정보를 포함하는 경우는, input sequence x앞에 concat하여 사용한다.

4.5 Generative Profile Memory Network

마지막으로, 각 profile 항목을 메모리 네트워크의 개별 메모리 표현으로 인코딩하는 생성 모델을 소개합니다.

즉 4.4와 달리 profile을 따로 인코딩한다는 것
4.4와 마찬가지로 대화 히스토리는 LSTM-enc로 인코딩되어서 LSTM-dec의 초기상태로 쓰임

각 항목은 다음과 같다.

$p_i = < p_{i,1}, . . . , p_{i,n_i}> \ \in P$

인코딩은 다음과 같이 된다.

가중치합: $f(p_i) = \sum^{|p_i|}_{j} \alpha_i p_{i,j}$

다른 profile 문장들과 아래와 같은 식으로 가중치를 구함

$\alpha_i = 1/(1 + log(1 + tf))$

tf is computed from the GloVe index via Zipf’s law

Let F be the set of encoded memories.
The decoder now attends over the encoded profile entries, i.e., we compute the mask at , context ct and next input xˆt as:

직관적인 느낌?

대화 히스토리를 LSTM-enc로 h로 인코딩한다.
profile을 f(pi)로 각각 인코딩한다.
F = f(pi)의 set?
F와 hdt(=대화 히스토리에서 t번째 turn의 대화의 decoder의 hidden state)을 이용하여 vector at을 구한다.

즉 at는 hdt와 profile의 상관성을 보여주는 것이라 생각
직관적으로 t번째 대화가 profile에 얼만큼 영향을 미치냐?

at에 F을 곱해서 context ct을 구한다.

대화 히스토리가 profile에 영향을 미치는 정도를 고려하여 at을 ct로 바뀜

ct와 xt을 이용하여 next input x^t을 구한다.

모델에 프로파일 정보가 없으므로 메모리가없는 경우 Seq2Seq 모델과 같다.

5 Experiments (번역)

5.1 Automated metrics

Persona Conditioning

대부분의 모델은 최소한 원래 버전 (비 수정) 버전에 대해 자신의 페르소나로 예측을 조정할 때 단어가 겹치지 않는 수정 된 것보다 쉬운 작업입니다.
예를 들어, 프로파일 메모리 생성 모델은 Seq2Seq와 비교하여 개선 된 난이도와 hits@1을 가지며 모든 순위 알고리즘 (IR 기준선, 스타 스페이스 및 프로필 메모리 네트워크)은 개선 된 hits@1을 얻습니다.

Ranking vs. Generative.

Ranking 모델은 순위에서 생성 모델보다 훨씬 낫습니다. 이것이 그들이 최적화하고있는 지표이기 때문에 아마도 분명하지만, 여전히 성능 차이는 매우 뚜렷합니다. 생성 모델이 사용하는 단어 기반 확률은 잘 작동하지만 순위가 요구하는 문장 기반 확률을 제공하기에 충분히 보정되지는 않습니다. Human 평가는 또한 우리가 Sec. 5.2.

Ranking Models.

순위 모델의 경우 학습 된 유사성 메트릭으로 인해 IR 기준선이 Starspace보다 성능이 뛰어납니다. 프로파일의주의 메커니즘으로 인해 프로파일 메모리 네트워크에서 성능이 뛰어납니다 (모델의 다른 모든 부분이 동일하므로). 마지막으로 KV 프로파일 메모리 네트워크는 현재 대화와 유사한 훈련 대화 상자에서 이웃 대화 기록 및 다음 발화 쌍을 고려할 수있는 능력으로 인해 페르소나가 아닌 경우 프로파일 메모리 네트워크보다 성능이 우수합니다.

Revised Personas.

수정 된 페르소나는 사용하기가 훨씬 어렵습니다. 그러나 우리는 여전히 프로파일 메모리 네트워크에 대해 어느 것도 (0.354 vs. 0.318 hits @ 1)에 비해 약간의 이득을 보았습니다. 또한 훈련 세트의 원래 페르소나 또는 수정 된 훈련의 두 가지 변형을 시도했는데, 그 비교는 부록의 표 6에 나와 있습니다. 수정 된 페르소나에 대한 교육은 원래 형식 또는 수정 된 형식의 테스트 예제 모두에서 모델이 단순한 단어 겹치기보다 더 많은 것을 배우도록 강요하여 모델을 더 일반화하도록 강요합니다 (예 : 다른 구의 의미 론적 유사성을 학습) .

Their Persona.

또한 다른 화자의 페르소나 또는 한 번에 두 페르소나에서 모델을 조정할 수 있습니다. 결과는 부록의 표 5 및 6에 있습니다. "그들의 페르소나"를 사용하면이 데이터 세트에 미치는 영향이 줄어 듭니다. 우리는 이것이 대부분의 발언자가 자신의 관심사에 집중할 때 자신에 집중하는 경향이 있기 때문이라고 생각합니다. 다른 데이터 세트에서 이것이 얼마나 자주 발생하는지는 흥미로울 것입니다. 확실히 이것은 사람들이 크라우드 워커들에게 줄 수있는 특정한 지시에 의해 왜곡되어 있습니다. 예를 들어, "자신에 대해 이야기하지 말고 상대방의 관심사에 대해 이야기하십시오"라는 지침을 제공하면 이러한 측정 항목이 변경 될 수 있습니다.

5.2 Human Evaluation

자동화된 지표는 대화를 평가하는 데 빈약하기로 악명 높으므로(Liu 등, 2016) 우리는 또한 크라우드 소싱된 근로자를 사용하여 인적 평가를 수행한다.
절차는 다음과 같다. 우리는 3.3절과 같이 데이터 집합 수집 프로세스 자체와 거의 동일한 설정을 수행한다.

그 설정에서 우리는 투르크인 두 명을 짝을 지어 각각 수집된 수영장에서 무작위(원래) 페르소나를 할당하고, 그들에게 수다를 떨라고 했다.
Here, from the Turker’s point of view everything looks the same except instead of being paired with a Turker they are paired with one of our models instead (they do not know this).
이 설정에서, 터커와 모델 양쪽 모두에 대해, 페르소나는 테스트 세트 풀에서 나온다.

유창함, 참여도 및 일관성 (1-5 점)을 평가하도록 요청합니다.
든 PERSONACHAT 모델과 OpenSubtitles에 대해 교육 된 모델의 유창성, 참여도 및 일관성에 차이가 있습니다.
트위터. PERSONA-CHAT는 대화를 시작할 때, 두 명의 화자가 서로를 알지 못하는 경우 다른 자료와 달리 질문을하고 대답하는 데 중점을 둔 훈련 데이터를 제공하는 데 특히 강력한 자료입니다.
유창함, 참여도, 일관성 및 지속적 인물 간의 균형을 찾는 것은 미래의 연구에있어 여전히 어려운 과제입니다.

5.3 Profile Prediction

PERSONACHAT를 사용하여 두 가지 작업을 자연스럽게 고려할 수 있습니다.

(1) next utterance prediction during dialogue, and
(2) profile prediction given dialogue history.

이 연구의 주요 연구는 프로파일 정보의 사용을 보여준 작업 1입니다.
그러나 작업 2를 사용하여 이러한 정보를 추출 할 수 있습니다.
전체 연구가 이 논문의 범위를 벗어나지 만, 우리는 몇 가지 예비 실험을 수행했으며, 그 세부 사항은 부록 D에 있습니다.
모델이 인간의 관심에 주목하고 있음을 보여주는 모델 대화 (KV 프로파일 메모리를 사용하는 경우 23 %)를 통해 표 4의 휴먼 퍼포먼스를 볼 수 있습니다.
또한, 표 14에 나타난 바와 같이, 추가적인 대화를 통해 정확도가 명확하게 향상됩니다.
과제 1과 과제 2를 전체 시스템으로 결합하는 것은 미래 연구의 흥미로운 분야입니다.

6 Conclusion & Discussion

여기서 PERSONACHAT dataset을 제시한다.

consists of crowd-sourced dialogues where each participant plays the part of an assigned persona;
each (crowd-sourced) persona has a word-distinct paraphrase.

우리는 다양한 베이스라인을 보여주고 모델들은 대화 상태외에 추가적으로 그들의 personas에 접근하지만, 일관성의 점수는 더 매력적이지 않음을 보여준다. (Table4의 seq2seq vs profile memory)

반면, 우리는 PERSONA-CHAT (페르소나 유무에 관계없이)으로 훈련 된 모델이 다른 자원 (영화, 트위터)의 대화에 대해 훈련 된 모델보다 더 매력적이라는 것을 보여줍니다.
우리는 PERSONA-CHAT가 미래의 대화 시스템의 구성 요소를 교육하는 데 유용한 리소스가 될 것이라고 믿습니다.
즉, 베이스라인은 PERSONA-CHAT의 매력적임을 이끌어내지 못했으나 데이터자체는 매력적이게 잘 만들었다?
우리는 인간이 생성 한 프로필과 대화를 연결했기 때문에 데이터는 일관된 성격과 관점을 가진 에이전트를 구성하는 데 도움이됩니다.

우리가 인간 생성 프로필과 대화를 쌍을 지었기 때문에, 데이터는 일관된 성격과 관점을 가진 에이전트의 구성에 도움이 된다.
우리는 프로파일의 paraphrases를 수집하기 때문에 사소하게 일치시킬 수 없습니다.

실제로, 우리는 원래의 프로파일과 rephrased 프로파일이 그 자체로 의미 론적 유사성 데이터 세트로 흥미 롭다고 믿는다.

데이터가 사용자 프로필에 대해 질문하고 답변을 기억하며 대화에서 자연스럽게 사용할 수있는 교육 담당자에게 도움이 되길 바랍니다.

Reference

https://arxiv.org/pdf/1801.07243.pdf

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-071, Personalizing dialogue agents: I have a dog, do you have pets too? (2018-ACL)

■ Comment

0. Abstract

1 Introduction

2 Related Work

3 The PERSONA-CHAT Dataset

3.1 Personas

3.2 Revised Personas

3.3 Persona Chat

3.4 Evaluation

4 Models

4.1 Baseline ranking models

4.2 Ranking Profile Memory Network

4.3 Key-Value Profile Memory Network

4.4 Seq2Seq

4.5 Generative Profile Memory Network

5 Experiments (번역)

5.1 Automated metrics

5.2 Human Evaluation

5.3 Profile Prediction

6 Conclusion & Discussion

댓글

댓글 쓰기