◼ Comment

이 논문의 핵심 중 하나는 self 페르소나말고 partner 페르소나도 응답선택(생성)에 중요하다는 것이다.
아쉬운 것은 self, partner을 동시에 쓰는 것이 아니라 따로따로 사용한다는 것이다.
즉 self 반영한 모델, partner 반영한 모델 이렇게 존재하는 것
아무튼 성능은 self을 반영한 모델이 당연히 좋다.
모델에는 HRE, IMN, BERT 3가지를 시도했는데 압도적으로 BERT가 좋다.
그리고 4가지 persona 융합과정을 소개하는데 사실 이는 HRE, IMN 방식에 결합할때 그럴싸하긴 한데...
BERT에는 크게 유의미하게 결합하는 느낌은 아니다.

그냥 요렇게 저렇게 실험한 느낌ㅋㅋ

뭐 아무튼, BERT에서 [persona; context; response] 식으로 하고 몇 가지 embedding을 추가해서 성능을 향상시켰다.
근데 persona는 모든 persona을 다쓴다는 것이 조금 아쉬운 거 같긴 하다.

persona grounding에 대한 시도가 없다는 것..
대신 attention 기반으로 soft aggregation 느낌으로 persona을 사용하긴 한다.

논문 자체는 읽기 쉽게 되어있는 어플리케이션 형태여서 참고하기 좋았다.

0 Abstract

Persona는 대화 시스템의 일관성을 유지하기 위한 prior knowledge으로써 작동할 수 있다.
대부분의 이전의 연구들은 대화의 self-persona의 response가 candidates의 세트로부터 선택되거나 바로 생성되는데 적용되었지만, 대화의 partner의 role에 대해서는 연구가 거의 없었다.
이 논문에서는 검색기반 챗봇에서 response selection의 테스크에 대해 self or partner speakers 둘다 설명하기 위해 personas 활용의 영향을 철저히 탐구하려고 시도한다.
4개의 persona fusion 전략들이 고안되었고, 이는 personas가 contexts 혹은 responses와 다른 방식으로 상호작용한다.
이 전략들은 response selection을 위해 3개의 representative models에 적용되고, 이는 Hierarchical Recurrent Encoder (HRE), Interactive Matching Network (IMN)와 BERT을 각각 기반으로한다.
Persona-chat 데이터세트에 대한 경험적인 결과들은 이전의 연구들에서 무시된 partner personas가 IMN, BERT 기반의 모델들의 response selection 성능을 향상시킬 수 있음을 보여준다.
게다가, 우리의 context-response-aware persona 결합 전략을 가지는 BERT-based 모델은 이전의 방법들보다 2.7% (original personas)와 4.6% (revised personas) 만큼 hits@1 (top-1 성능) 향상시키고, 이는 persona-chat 데이터세트에서 SoTA을 달성한다.

1 INTRODUCTION

인간과 유사한 대화 시스템을 구축하는 것은 인공 지능의 오랜 목표였으며, 여기서 주요 과제 중 하나는 일관된 성격을 제시하는 것입니다[38].
대화 맥락과 화자의 페르소나를 고려하여 일련의 후보자 중에서 적절한 응답을 선택하는 것을 목표로 하는 개인화 응답 선택은 검색 기반 챗봇에서 대화 에이전트의 성격을 제시하는 중요한 기술입니다[8, 9, 18, 35, 37 ].
검색 기반 챗봇은 일반적으로 대화 에이전트를 구축하는 데 사용됩니다[4–7, 16, 28, 29, 33, 34, 36, 40]. 오늘날 많은 회사들이 유망한 잠재력과 매혹적인 상업적 가치 때문에 검색 기반 가상 비서를 구축했습니다[2, 11, 39].
Zhang은 개인화된 대화 에이전트를 구축하기 위한 Persona-Chat 데이터 세트를 구성했으며, 여기서 각 페르소나는 프로필 설명의 여러 문장으로 표현되었습니다.
Persona-Chat 데이터 세트의 지정된 프로필을 조건으로 하는 원시 예제 대화가 표 1에 나와 있습니다.
개인화된 대화 에이전트를 구축하는 데 큰 진전이 있었지만[8, 9, 14, 18, 35, 37], 아직 초기 단계에 있습니다.
대부분의 선행 연구들은 대화에서 자신이 self speaker의 페르소나에 대해 응답을 하려고 하는 것에 초점을 맞추었지만, partner speaker 페르소나가 대화에 기여하는 경우는 거의 관찰되지 않았다.
페르소나를 조건으로 하는 대화의 경우 대화 에이전트가 파트너 페르소나에 액세스할 수 없는 경우 에이전트 자체와 관련된 응답 검색에 과도하게 집중하는 경우가 많으며, 이는 대화가 실제로 어떻게 진행되는지에 대한 기본 진실에서 벗어나는 경우가 있습니다.
예를 들어, 취미에 대한 대화가 주어지면 에이전트가 "나는 농구를 하는 것을 좋아합니다"라는 자기 페르소나 프로필에만 액세스할 수 있는 경우 종종 "나는 스포츠를 좋아합니다"와 같은 응답 후보에 과도하게 가중치를 줍니다.

근데 어쨌든, PMRS 테스트 데이터세트가 이러한 걸 반영한거 아닌가?

그러나, 만약 agent 또한 partner persona profile “I often play various instruments”에 접근할 수 있다면, 이는 모델을 좀 더 유연하게 해서 agent 자신에 대해 얘기하는 것에 집중할 뿐만 아니라 좀 더 조화로운 대화를 수행하게한다.

즉 asking questions such as “Who is your favorite musician”, as the real conversations often proceed.

대화 속의 다른 화자들의 persona들이 일관된 personalized 대화모델들에 어떻게 기여하는지는 근본적인 문제이다.
적절한 응답을 직접 선택하는 서로 다른 페르소나의 능력을 비교하기 위해 먼저 컨텍스트 정보를 제거하고 주어진 자신 또는 파트너 페르소나 정보만으로 적절한 응답을 검색하여 예비 실험을 수행합니다.

내가하는 것과 비슷한 듯

HRE(Hierarchical Recurrent Encoder)[25], IMN(Interactive Matching Network)[6] 및 BERT(Bidirectional Encoder Representations from Transformers)[3]가 일치 모델로 선택되었으며 결과는 표 2에 나와 있습니다.

결과는 단일 페르소나-응답 매칭이 유사한 성능을 달성할 수 있음을 보여주며, 이는 적절한 응답을 선택하기 위해 페르소나 정보를 활용하는 유용성을 보여줍니다.

이미 실험결과가 있긴 함

한편, partner persona는 self persona보다 덜 중요하지만 여전히 응답 선택에 어느 정도 기여할 수 있음을 알 수 있으며 이는 위에서 언급한 가정과 일치합니다.

이 논문의 핵심
그러나 대화에서 파트너의 역할에 대해 주목한 연구는 거의 없으며 파트너 화자의 페르소나가 어떤 조건에서 더 기여할 수 있는지에 대해서는 아직 많이 연구되지 않았습니다.

이를 위해 우리는 self or partner 화자를 설명하는 페르소나를 활용하여 개인화된 응답 선택 작업에 미치는 영향을 탐색하려고 합니다.
4가지 페르소나 융합 전략, 즉 NA(None-aware), CA(Context-Aware), RA(Response-Aware), CRA(Context-Response-Aware)은 페르소나와 컨텍스트 간의 상호 작용뿐만 아니라 페르소나와 응답 간의 상호 작용을 고려하는지 여부를 기반으로 설계되었습니다.
철저한 비교 및 분석을 위해 이 4가지 전략을 각각 HRE, IMN 및 BERT 모델을 기반으로 하는 대응 선택을 위한 3가지 대표적인 모델로 구현합니다.
HRE는 응답 선택을 위한 문장 인코딩 기반 프레임워크를 따릅니다.

이 프레임워크는 컨텍스트와 응답을 상호 작용 없이 별도로 인코딩하고 임베딩을 별도로 얻습니다.

IMN은 cross attention 기반 프레임워크의 대표적인 모델로 컨텍스트와 응답 간의 대화식 매칭을 수행하여 컨텍스트 간의 매칭 정보를 도출합니다.

한편, IMN은 본 논문에서 구현한 HRE와 가장 유사한 아키텍처를 공유하므로 컨텍스트와 응답 간의 상호 작용이 페르소나 융합에 미치는 영향을 탐색할 수 있습니다.

BERT 기반 응답 선택 모델은 컨텍스트와 응답 간의 상호 작용을 수행할 뿐만 아니라 사전 학습을 통해 일반 분포 의미 및 기타 지식을 통합합니다.

우리는 페르소나를 조건으로 하는 다중 턴 대화를 포함하는 현재까지 가장 큰 공개 데이터 세트인 Persona-Chat 데이터 세트[35]에서 모델을 소개하고 제안된 페르소나 융합 방법을 테스트합니다.

실험 결과는 파트너 페르소나가 IMN 및 BERT 기반 모델을 사용할 때 성능에 기여함을 보여줍니다.
게다가 사전 훈련 알고리즘은 더 많은 컨텍스트가 주어지면 깊은 의미를 포착하는 데 도움이 될 수 있습니다.
또한, 이전 방법과 비교하여 컨텍스트 응답 인식 페르소나 융합 전략으로 구현된 BERT 기반 모델은 원래 페르소나에서 2.7%, 수정된 페르소나에서 4.6% 향상된 hit@1(top-1 정확도)으로 이 데이터 세트에서 새로운 최첨단 성능을 달성했습니다.
요약하자면, 이 논문의 기여는 두 가지입니다.

첫째, 4가지 페르소나 융합 전략을 3가지 모델로 설계 및 구현하여 자신뿐만 아니라 파트너 화자의 페르소나 활용이 응답 선택에 미치는 영향을 탐색합니다.
둘째, 실험 결과는 널리 사용되는 Persona-Chat 응답 선택 벤치마크에서 제안한 모델이 기존의 최첨단 모델을 크게 능가함을 보여줍니다.

2 RELATED WORK

잡담 모델은 일반적으로 각기 다른 화자와 함께 많은 대화에 대해 훈련을 받았기 때문에 일관된 성격이 결여되어 있으며, 일반적으로 아주 최근의 대화에서만 발화를 생성하도록 훈련되기 때문에 명시적 장기 기억이 부족합니다.
대화 에이전트를 구축하는 데 사용되는 기존 방법은 일반적으로 generation-based [14, 25, 26]과 retrieval-based 방법[4–7, 16, 28, 29, 33, 34, 36, 40]으로 분류할 수 있습니다.
오늘날 많은 기업들이 유망한 잠재력과 매혹적인 상업적 가치로 인해 개인화된 가상 비서를 구축했습니다[2, 11, 39].
Li et al. [14]는 background information and speaking style과 같은 개인의 특성을 포착하기 위해 페르소나 기반 신경 대화 모델을 제안했습니다.

생성기반의 방법임

Miller et al. [20]은 키-값 메모리 네트워크를 제안했는데 여기서 키는 대화 기록, 즉 컨텍스트이고 값은 다음 대화 발화입니다.
Zhang et al. [35]는 개인화된 대화 에이전트를 구축하기 위한 Persona-Chat 데이터 세트를 구성했는데, 이는 페르소나를 조건으로 하는 다중 턴 대화를 포함하는 현재까지 가장 큰 공개 데이터 세트입니다.
또한 대화 내역을 입력으로 고려한 다음 대화 내역과 결합할 페르소나에 주의를 기울임으로써 프로필 메모리 네트워크와 같은 이 벤치마크에 대한 많은 기준을 설정했습니다.
Mazareet al. [18]은 먼저 Reddit 기반의 대규모 코퍼스를 사용하여 모델을 사전 학습하여 페르소나를 조건으로 하는 가치 있는 대화를 추출한 후 이러한 사전 학습된 모델을 Persona-Chat에서 미세 조정하는 미세 조정된 Persona-Chat(FT-PC) 모델을 제안했습니다. (채팅 데이터세트.)
Zheng et al. [38]은 나이, 성별 및 위치와 같은 명시적인 성격 특성을 대화에 통합할 것을 제안했습니다.
Luo et al. [17]은 프로필 모델과 선호도 모델을 개인화된 MEMN2N으로 결합하여 사용자 프로필을 분산된 임베딩으로 인코딩하고 다른 유사한 사용자의 대화 기록을 참조하도록 제안했습니다.

그런 다음 PREFERENCE MODEL은 지식 기반 엔터티에 대한 사용자 기본 설정을 캡처하여 사용자 요청의 모호성을 처리합니다.

Zhao et al. [37]은 페르소나와 컨텍스트의 정보를 서로의 표현으로 융합하고 페르소나 정보가 필요한지 여부와 페르소나 및 컨텍스트의 다른 부분의 중요성을 동적으로 결정하는 DGMN(Document-grounded matching network)을 제안했습니다.
Guet al. [9]는 응답 후보의 순위를 매기기 위해 응답과 컨텍스트 간, 응답과 페르소나 간에 각각 대화형 매칭을 수행하여 대화 에이전트의 성격을 제시하는 이중 대화형 매칭 네트워크(DIM)를 제안했습니다.
Wolf et al. [32] 및 Liu et al. [15] 둘 다 개인화된 대화 에이전트를 구축하기 위해 GPT(Generative Pretrained Transformer)[24]의 사전 훈련된 언어 모델을 사용했습니다.
Guet al. [8]은 대화를 주어진 지식에 기초하여 반복적으로 참조(FIRE)한 다음 심층적이고 반복적인 매칭을 수행하기 전에 필터링을 제안했습니다.
일반적으로 이러한 방법의 대부분은 대화에서 자기 페르소나를 채택했습니다.
우리가 아는 한 Zhang et al. Persona-Chat 데이터 세트를 구성한 [35]은 파트너 페르소나를 활용하기 위한 몇 가지 기준을 설정했으며 Gu et al. [9] 방금 파트너 페르소나 설정에서 방법을 테스트했습니다.
특정 조건에서 성과를 개선하기 위해 파트너 페르소나를 활용하는 방법에 대한 후속 작업은 없었습니다.
따라서 본 논문에서는 자신뿐만 아니라 파트너 화자의 페르소나를 활용하는 것이 개인화 응답 선택의 수행에 미치는 영향을 철저히 탐구하고자 한다.
이 문서의 초점은 과감하게 새로운 모델을 설계하는 것이 아니라 자신과 파트너 페르소나가 작동할 수 있는 조건을 조사하는 데 있다는 점을 강조해야 합니다.
우리는 자신뿐만 아니라 파트너 화자의 페르소나를 활용하여 개인화된 응답 선택에 미치는 영향을 종합적으로 이해하는 것을 목표로 합니다.
따라서 우리는 4가지 페르소나 융합 전략을 설계하고 3가지 매우 대표적인 모델을 선택하여 이러한 전략의 효과를 검증하기 위해 이러한 전략을 이러한 모델에 적용합니다.
모델은 이 문서의 초점이 아닌 이러한 전략을 적용하기 위한 테스트베드일 뿐이므로 다른 모델을 선택할 수 있습니다.
대신, 자신과 파트너 페르소나가 작동할 수 있는 조건을 탐색하는 것이 우리의 초점입니다.
우리의 작업이 응답 선택 성능을 더욱 향상시키기 위해 자신과 파트너 페르소나를 결합하는 데 도움이 되기를 바랍니다.

3 TASK DEFINITION

personas을 가지는 대화 데이터세트 D가 주어졌을 때, 데이터세트의 예제는 tupe (𝑐, 𝑝, 𝑟, 𝑦) 으로 표현되고 테이블1에서 보여준다.
구체적으로, 𝑐 = {𝑢1, 𝑢2, ..., 𝑢𝑛𝑐 }는 발화로써 {𝑢_𝑚}^𝑛𝑐_𝑚=1을 가지는 context을 표현하고, 𝑛𝑐는 발화의 수이다.
𝑝 = {𝑝1, 𝑝2, ..., 𝑝_𝑛𝑝}는 프로필 문장으로써 persona {𝑝𝑛}^𝑛𝑝_𝑛=1을 표현하고, 𝑛𝑝는 profile 수이다.
𝑟는 response candidate을 표현한다.

𝑦 ∈ {0, 1} denotes a label.
𝑦 = 1 indicates that 𝑟 is a proper response for (𝑐, 𝑝); otherwise, 𝑦 = 0.

Our goal is to learn a matching model 𝑔(𝑐, 𝑝, 𝑟) from D.
For any context-persona-response triple (𝑐, 𝑝, 𝑟), 𝑔(𝑐, 𝑝, 𝑟) measures the matching degree between (𝑐, 𝑝) and 𝑟.

4 PERSONA FUSION FOR RESPONSE SELECTION

대화속의 다른 화자들의 personas을 캡쳐하는 것은 personalized dialogue agents을 개발하는데 키이다.
self and partner 페르소나가 대화에 미치는 영향을 철저히 탐구하기 위해 페르소나가 컨텍스트 또는 응답과 다른 방식으로 상호 작용한다고 가정하고 3가지 모델로 구현하는 4가지 페르소나 융합 전략을 설계합니다.

이는 sentence-encoding-based, cross-attention-based, pretrainin-based 기반들이다.

모델 구조와 전략에 대한 자세한것은 이 섹션에서 소개된다.

4.1 Sentence-Encoding-Based Model

멀티턴 대화에서 sentence-encoding-based 프레임워크 아래의 대표적인 model은 Hierarchical Recurrent EncoderDecoder (HRED) [25]로, 이는 기존에 대화 생성을 위해 제안되었던 것이다.
여기서, 우리는 오직 인코딩된 임베딩을 얻기 위해 인코더 파트가 필요하고, 그래서 우리는 Hierarchical Recurrent Encoder (HRE)라고 이 논문에서 명명한 것이다.
Figure 1 (a) shows an overview of the architecture.

먼저, 우리는 IMN [6]에서 사용된 세팅을 따른다, 이는 general pretrained word embeddings을 결합한 word representations을 구축하는 것이고, 이들은 task-specific training set에서 측정된다.

뿐만 아니라 character-level embeddings으로 out-of-vocabulary issue을 해결하려고 한다.

형식적으로, 컨텍스트에서 m번째 발화의 임베딩들, persona에서 n번째 profile sentence와 response candidate은 $\textbf{U}_m = \{\textbf{u}_{m,i} \}^{l_{u_m}}_{i=1}$, $\textbf{P}_n = \{\textbf{p}_{n,j} \}^{l_{p_n}}_{j=1}$, $\textbf{R} = \{\textbf{r}_{k} \}^{l_{r}}_{k=1}$으로 표기된다.

𝑙𝑢𝑚 , 𝑙𝑝𝑛 and 𝑙𝑟 are the numbers of words in U𝑚, P𝑛 and R
Each u𝑚,𝑖, p𝑛,𝑗 or r𝑘 is an embedding vector.
여기서 partner의 persona도 중요하다고 하는데, 여기서 입력되는 persona은 self, partner 둘 중하나이다. 즉 결합해서 사용하는 개념이 아닌듯

context, utterances, persona profiles과 reesponse candidate는 BiLSTMs으로 인코딩된다.
Detailed calculations of BiLSTM are omitted due to limited space. We denote the calculations as

여기서 U¯𝑚 = {u¯𝑚,𝑖 } , P¯ 𝑛 = {p¯𝑛,𝑗 } 및 R¯ = {r¯𝑘 } .
이 세 가지 BiLSTM의 매개변수는 구현에서 공유됩니다.
각 u¯𝑚,𝑖, p¯𝑛,𝑗 또는 r¯𝑘은 임베딩 벡터입니다.

일치 행렬 U¯𝑚, P¯ 𝑛 및 R¯은 임베딩 벡터를 다음과 같이 유도하기 위해 최대 및 마지막 은닉 상태 풀링 연산에 의해 집계됩니다.

다음으로, u 𝑎𝑔𝑟 𝑚 및 p 𝑎𝑔𝑟 𝑛의 시퀀스는 컨텍스트와 페르소나 각각에 대한 임베딩 벡터를 얻기 위해 추가로 집계됩니다.
컨텍스트의 발언이 시간순으로 정렬되기 때문에 발언 임베딩 U¯ 𝑎𝑔𝑟 = {u¯ 𝑎𝑔𝑟 𝑚 }은 컨텍스트의 발언 순서에 따라 다른 BiLSTM으로 전송됩니다.
결합된 최대 풀링 및 마지막 숨김 상태 풀링 작업은 다음과 같이 컨텍스트 임베딩을 얻기 위해 수행됩니다.

유사하게, profile embeddings 시퀀스 {p¯ 𝑎𝑔𝑟 𝑛 } 𝑛𝑝 𝑛=1 가 주어지면 pˆ 𝑎𝑔𝑟를 포함하는 집계 페르소나 페르소나 퓨전은 페르소나 융합에 의해 얻어집니다.
본 논문에서는 페르소나와 컨텍스트 간의 상호작용, 페르소나와 응답 간의 상호작용을 고려하는지 여부에 따라 4가지 페르소나 융합 전략을 설계하였다.

4.1.1 None-Aware Persona Fusion.

이 전략에서 페르소나 융합은 컨텍스트와 응답 모두에 독립적입니다.

이게 말이되나?

self-attention-based Aggregation은 다음과 같이 페르소나 임베딩을 도출하도록 설계되었습니다.

where w and 𝑏 are parameters that need to be estimated during training.

그런 다음 통합된 페르소나 임베딩은 식 (17)과 같이 최종 매칭 특성의 일부로 융합됩니다.
이 페르소나 융합 전략은 컨텍스트 및 응답에 대한 정보를 인식하지 못하므로 이에 따라 본 논문에서는 이를 NA(None-Aware) 페르소나 융합으로 명명합니다.

아마도, context, response 상관없이 그냥 persona embedding을 결합하는 그런 개념인듯
물론 식 17에서 concat후, MLP layer 등을 통해 조금은 결합이 되긴 할듯
단지, persona embedding와 context, response embedding와 직접적으로 결합을 안한다?

4.1.2 Context-Aware Persona Fusion.

페르소나 융합 시 컨텍스트 정보를 인지하기 위해 컨텍스트 임베딩과 각 프로필 임베딩 간의 유사도를 계산한 후 어텐션 연산을 수행하여 집합된 페르소나 임베딩 (pˆ𝑎𝑔𝑟)을 얻음으로써 컨텍스트 인식(CA) 페르소나 융합 전략을 설계합니다.
이러한 persona fusion strategy은 프로파일 임베딩에 동적으로 컨텍스트의 유사성에 따라 다른 중요성을 부여하여 컨텍스트 정보를 인식하므로 본 논문에서는 이를 컨텍스트 인식(CA) 페르소나 퓨전이라고 명명합니다.

4.1.3 Response-Aware Persona Fusion.

유사하게, 우리는 응답 임베딩과 각 프로파일 임베딩 간의 유사성을 계산하고 다음과 같이 집계된 페르소나 임베딩 pˆ 𝑎𝑔𝑟를 얻기 위해 주의 연산을 수행하여 응답 인식(RA) 페르소나 융합 전략을 설계합니다.
Then the same attention operation as Eq. (10) is performed to obtain pˆ 𝑎𝑔𝑟 .

4.1.4 Context-Response-Aware Persona Fusion.

컨텍스트와 응답 정보를 동시에 인식하기 위해 컨텍스트 응답 인식(CRA) 페르소나 융합 전략을 설계합니다.
이 전략은 먼저 컨텍스트와 응답 임베딩을 연결한 다음 선형 변환을 통해 동일한 차원의 프로필 임베딩으로 변환합니다.
유사성은 그것과 각 프로파일 임베딩 사이에서 계산됩니다.
그런 다음 pˆ 𝑎𝑔𝑟를 얻기 위해 동일한 주의 연산이 수행됩니다. 수학적으로 우리는
Lastly, after obtaining the aggregated persona embedding pˆ 𝑎𝑔𝑟 , the final matching feature vector is the concatenation of the context, persona and response embeddings as
그런 다음 최종 일치하는 특징 벡터가 MLP(다층 퍼셉트론) 분류기로 전송됩니다.
여기서 MLP 분류기는 파생된 매칭 특징 벡터를 기반으로 context-response-persona 트리플(𝑐, 𝑝, 𝑟)이 적절하게 일치하는지 예측하고 이 트리플의 일치 정도를 나타내는 점수를 반환하도록 설계되었습니다.
마지막으로 모든 응답 후보에 대한 확률 분포를 반환하기 위해 MLP에 softmax 출력 레이어가 채택되었습니다.
MLP 교차 엔트로피 손실을 최소화하여 모델을 학습합니다. Θ가 모델 매개변수를 나타냅니다.
The learning objective L (D, Θ) is formulated as

4.2 Cross-Attention-Based Model

다중 턴 대화를 위한 교차 주의 기반 프레임워크에서 대표적인 모델은 다중 턴 응답 선택을 위해 원래 제안된 IMN(Interactive Matching Network)[6]입니다.
이 모델을 선택하는 또 다른 이유는 우리가 이 백서에서 구현한 HRE와 가장 유사한 아키텍처를 공유하므로 컨텍스트와 응답 간의 상호 작용이 페르소나 융합에 미치는 영향을 탐색할 수 있기 때문입니다.

즉 4.2는 IMN을 의미함

그림 1(b)는 아키텍처의 개요를 보여줍니다.
IMN은 단어 표현, 문장 인코딩, 집계, 페르소나 융합 및 예측의 동일한 모듈을 HRE와 공유합니다.
또한 IMN은 컨텍스트와 응답 간의 일치 정보를 캡처하기 위해 컨텍스트와 응답 간에 전역 및 양방향 교차 주의 작업을 수행하는 상호 작용 모듈을 갖추고 있습니다.
다음과 같이 상호작용 모듈을 간략히 소개하며 독자들은 IMN에 대한 자세한 내용은 [6]을 참조할 수 있습니다.
먼저, wording embedding 테이블을 조회하고 문장 인코더에 의해 인코딩되어 utterance representations {U¯𝑚} 세트와 response representations R¯ 세트를 도출한 후, utterance representations 세트와 concat하여 context representation C¯ = {c¯𝑖 }이 형성됩니다.
그런 다음 IMN은 전체 컨텍스트를 단일 시퀀스로 간주하여 전역 및 양방향 방식으로 응답을 전체 컨텍스트와 일치시킵니다.
global context-response matching은 전체 컨텍스트에서 가장 관련성이 높은 부분을 선택하고 관련 없는 부분을 무시하는 데 도움이 될 수 있습니다.
주의 기반 정렬은 각 (c¯𝑖 , r¯𝑘 ) 튜플 간의 주의 가중치를 다음과 같이 계산하여 컨텍스트와 응답 간의 정보를 수집하는 데 사용됩니다.

응답에 있는 단어의 경우 컨텍스트에 대한 응답 관련 표현은 {c¯𝑖 } 의 가중치 합산으로 구성됩니다.
컨텍스트의 각 단어에 대해 동일한 계산이 수행되어 {r¯𝑘 } 의 가중 합계로 컨텍스트 대 응답 표현을 구성합니다.
수집된 정보를 더욱 향상시키기 위해, 문장 인코더 이후의 요소별 차이 및 해당 표현과의 곱을 계산한 다음 연결하여 향상된 표현을 얻습니다.
마지막으로 연결된 컨텍스트 표현은 추가 집계를 위해 전송되는 별도의 발화 표현으로 다시 변환되어야 합니다.
IMN의 페르소나 집계는 HRE의 페르소나 집계와 동일합니다.
자세한 내용은 4.1절을 참조하십시오.

4.3 Pretraining-Based Model

사전 훈련 기반 프레임워크의 대표적인 모델은 BERT(Bidirectional Encoder Representations from Transformers)[3]입니다.
공간 제한으로 인해 BERT에 대한 완전한 배경 설명은 생략합니다.
자세한 내용은 [3]을 참조하십시오.
4가지 페르소나 융합 전략은 다양한 방식으로 개인화된 응답 선택 작업에 맞게 BERT를 조정하여 구현됩니다.

4.3.1 None-Aware Persona Fusion.

이 전략에서는 두 개의 인코딩 파이프라인으로 구성된 이중 일치 아키텍처를 제안합니다.
하나는 컨텍스트와 응답 간의 매칭 특성을 도출하는 데 사용되며, 다른 하나는 페르소나 융합 특성을 도출하는 데 사용됩니다.
마지막으로 이 두 기능을 연결하여 최종 기능을 형성합니다.
그림 2(a)는 아키텍처의 개요를 보여줍니다.
컨텍스트와 응답 간의 일치하는 기능을 도출하기 위해 BERT에서 컨텍스트가 시퀀스 A를 형성하는 데 사용되고 응답이 BERT에서 시퀀스 B를 형성하는 데 사용된다는 원래 BERT의 구성을 따릅니다.
그런 다음 이 두 시퀀스를 [SEP] 토큰과 연결하여 더 긴 시퀀스를 얻습니다.
스택된 Transformer 블록[30]에 의해 인코딩된 후, 연결된 각 시퀀스의 첫 번째 토큰[CLS]의 포함이 컨텍스트-응답 쌍에 대한 일치 기능으로 사용됩니다.
페르소나 융합 기능을 파생할 때 페르소나 자체는 컨텍스트 또는 응답과의 상호 작용 없이 인코딩을 위해 BERT로 전송됩니다.
유사하게, 페르소나 시퀀스의 첫 번째 토큰[CLS]의 임베딩은 페르소나 융합 기능으로 사용됩니다.
마지막으로 매칭 특징과 페르소나 융합 특징을 연결하여 최종 특징을 형성한다.
이 기능은 페르소나 컨텍스트 응답 트리플에서 일치하는 정보를 캡처하여 시그모이드 출력 레이어가 있는 MLP 분류기로 전송됩니다.
분류기는 이 트리플의 일치 정도를 나타내는 점수를 반환합니다.

4.3.2 Context-Aware Persona Fusion.

이 전략은 페르소나와 컨텍스트의 연결을 인코딩을 위해 BERT로 전송하여 페르소나 융합 기능이 파생된다는 점을 제외하고 BERT의 none-aware persona fusion 전략과 유사합니다.
그림 2(b)는 아키텍처의 개요를 보여줍니다.
구체적으로, 페르소나는 BERT에서 시퀀스 A를 형성하는 데 사용되며 컨텍스트는 BERT에서 시퀀스 B를 형성하는 데 사용됩니다.
그런 다음 이 두 시퀀스가 [SEP] 토큰으로 연결됩니다.
마찬가지로 첫 번째 토큰[CLS]의 임베딩은 페르소나와 컨텍스트 간의 상호 작용을 통해 컨텍스트 정보를 인식하는 페르소나 융합 기능으로 사용됩니다.

4.3.3 Response-Aware Persona Fusion.

이 전략은 페르소나 융합 특성을 도출할 때 컨텍스트를 응답으로 대체한다는 점을 제외하고는 BERT의 컨텍스트 인식 페르소나 융합 전략과 유사합니다.
Figure 2 (b) shows an overview of the architecture.

4.3.4 Context-Response-Aware Persona Fusion.

위에서 언급한 문맥-응답 매칭 특징과 페르소나 융합 특징을 각각 도출하는 전략과 달리, 본 전략에서는 두 가지 정보를 동시에 포함하는 특징을 도출하는 간단하면서도 효과적인 방법을 제안한다.
그림 2(c)는 아키텍처의 개요를 보여줍니다.
구체적으로, 페르소나와 컨텍스트가 연결되어 시퀀스 A를 형성하고 응답을 사용하여 시퀀스 B를 형성합니다.
그런 다음 이 두 시퀀스는 [SEP] 토큰으로 연결됩니다.
그것들을 더 구별하기 위해, 미세 조정 과정에서 업데이트되는 매개변수인 원래 시퀀스 A/B 임베딩 외에도 세 가지 하위 유형의 임베딩이 해당 토큰 표현에 추가됩니다.
연결된 각 시퀀스의 첫 번째 토큰[CLS]의 인코딩된 임베딩은 페르소나 컨텍스트 응답 3중 분류에 대한 집계된 표현으로 사용됩니다.
이 임베딩은 이 트리플에서 일치하는 정보를 캡처합니다.
이 전략에서 페르소나 퓨전은 컨텍스트와 두 가지와의 상호 작용을 통해 응답을 모두 인식합니다.
마지막으로 이 emdedding은 MLP 분류기로 보내지고 이 트리플의 일치 정도를 나타내는 점수를 반환합니다.
이 방법은 내가 현재하려고 하는 prompting 방법과 유사한데?

근데 뭔가 이거는 추가적인 embedding을 더해주는 식
내 방법은 persona grounding, prompt question, CLS 토큰 위치 정도가 이것과 다른것 같다.

5 EXPERIMENTS

5.1 Dataset

우리는 페르소나를 조건으로 한 멀티턴 대화를 포함하는 현재까지 가장 큰 공개 데이터 세트인 Persona-Chat 데이터 세트[35]에 대해 제안된 방법을 테스트했습니다.
데이터 세트는 훈련을 위한 8939개의 완전한 대화, 검증을 위한 1000개, 테스트를 위한 968개의 대화로 구성됩니다.
응답 선택은 완전한 대화의 모든 턴에서 수행되며, 결과적으로 교육을 위한 65719개의 대화, 검증을 위한 7801개의 대화, 테스트를 위한 7512개의 대화가 생성됩니다.
긍정적인 응답은 사람의 실제 응답이고 부정적인 응답은 데이터 세트 릴리스에서 무작위로 샘플링됩니다.
양성 응답과 음성 응답의 비율은 훈련, 검증 및 테스트 세트에서 1:19입니다.
훈련용 페르소나는 955개, 검증용 100개, 테스트용 100개가 있으며 각각은 3~5개의 프로필 문장으로 구성됩니다.
대화와 페르소나 모두에 대한 교육/검증/테스트 세트 간에 겹치는 부분이 없습니다.
이 작업을 더 어렵게 만들기 위해 수정된 페르소나 설명 버전도 원래 설명을 바꾸거나 일반화하거나 전문화하여 제공됩니다.

5.2 Evaluation Metrics

결과를 비교할 수 있도록 이전 작업 [9, 35]에서와 동일한 평가 메트릭을 사용했습니다.
각 모델은 주어진 컨텍스트𝑐 및 페르소나 𝑝에 대해 사용 가능한 후보 중에서 가장 일치하는 응답을 선택하는 것을 목표로 했습니다.
우리는 hit@1로 표시된 참 긍정 응답의 회상을 계산했습니다.
또한 모든 후보자에 대한 정답 순위를 고려하기 위해 MRR(Mean Reciprocal Rank)도 채택했습니다.

5.3 Training Details

HRE, IMN 및 해당 페르소나 퓨전 모델을 구축하기 위해 모든 응답 후보에 대한 softmax 출력 레이어를 사용하여 훈련 세트에서 긍정 및 부정 응답의 비율을 1:19로 설정했습니다.
Adam 방법[12]은 배치 크기가 16인 최적화를 위해 사용되었습니다.
초기 학습률은 0.001이었고 5000단계마다 0.96씩 기하급수적으로 감소했습니다.
0.2의 비율로 드롭아웃[27]이 단어 임베딩과 모든 은닉층에 적용되었습니다.
훈련 Epoch의 최대 수는 10으로 설정되었습니다.
단어 표현은 300차원 GloVe 임베딩[23], Word2Vec 알고리즘을 사용하여 훈련 세트에서 추정된 100차원 임베딩[19], 창 크기가 {3, 4인 150차원 문자 수준 임베딩의 연결입니다. , 5}, 각각 50개의 필터로 구성됩니다.
학습 중에 단어 임베딩이 업데이트되지 않았습니다.
LSTM의 모든 숨겨진 상태에는 200개의 차원이 있습니다.
예측 계층의 MLP는 ReLU [21] 활성화와 함께 256개의 은닉 유닛을 가지고 있습니다.
단어의 최대 문자 수, 문맥 발화의 단어, 문맥의 발화, 페르소나 프로필의 단어, 페르소나의 프로필 및 응답의 단어의 최대 문자 수는 18, 20, 15, 15, 5, 20로 설정되었습니다.
컨텍스트의 발화 수가 15개 미만이면 zero 패딩한다.

그렇지 않으면 마지막 15개의 발언을 유지했습니다.

마찬가지로 페르소나의 프로필 문장 수가 5개 미만이면 zero 패딩한다.

검증 세트를 사용하여 테스트에 가장 적합한 모델을 선택했습니다.

BERT 및 그 페르소나 융합 모델을 구축하기 위해 기본 버전의 BERT를 사용했으며 다음 구성을 제외하고 원래 BERT의 대부분의 하이퍼 매개변수를 따랐습니다[3].
초기 학습률은 2e-5로 설정되었으며 L2 가중치 감쇠에 의해 선형적으로 감쇠되었습니다.
훈련 세트에서 긍정 응답과 부정 응답의 비율을 1:1로 설정하는 동적 부정 샘플링 전략을 채택했으며 각 Epoch마다 다른 부정 응답을 사용했습니다.
따라서 훈련 epoch의 최대 수는 19로 설정되었습니다.
최대 시퀀스 길이는 320으로 설정되었습니다. 학습 배치 크기는 12로 설정되었습니다.
예측 계층의 MLP는 Sigmoid 활성화가 있는 단일 계층 피드포워드 신경망이었습니다.
모든 코드는 TensorFlow 프레임워크[1]에서 구현되었으며 결과를 복제하는 데 도움이 되도록 게시되었습니다.

5.4 Comparison Methods

Non-pretraining-based methods.

IR 기준선, Starspace, Profile 및 KV Profile은 Zhang et al. [35] Persona-Chat 데이터 세트를 출시한 사람입니다.
DGMN[37], DIM[9] 및 FIRE[8]는 사전 훈련을 사용하지 않은 후속 연구입니다.
사전 훈련 기반 방법.

Pretraining-based methods.

FT-PC[18]는 Reddit에서 대화를 추출한 도메인별 말뭉치에 대해 먼저 사전 학습한 다음 Persona-Chat에서 미세 조정하여 "pretrain and fine-tune" 프레임워크를 사용했습니다.
TransferTransfo[32]와 P2 Bot[15]는 모두 큰 일반 말뭉치에서 사전 훈련된 GPT[24]의 사전 훈련된 언어 모델로 초기화된 다음 Persona-Chat에서도 미세 조정되었습니다.

5.5 Experimental Results

5.6 Analysis

Subtype Embeddings
Retrieval Time

5.7 Discussion on Response Generation

대화 생성을 위한 페르소나 융합이 이 논문의 초점은 아니지만, 우리는 자신 또는 파트너 페르소나도 응답 생성에 다르게 기여한다는 것을 보여주기 위해 예비 실험을 수행했습니다.
응답 생성에서 추론하는 동안 응답 후보가 없는 동안 컨텍스트만 사용할 수 있다는 점에 유의하십시오.
따라서 이 섹션에서는 컨텍스트 인식 페르소나 융합 전략에만 자신과 파트너 페르소나가 미치는 영향을 살펴보았습니다.
이 전략은 사전 훈련 기반 모델에 구현되었습니다.
우리의 실험에서는 시간과 공간 복잡도를 고려한 경량 모델 MiniLM[31]을 채택했습니다.
지면상의 제약으로 MiniLM의 소개는 생략하고 독자들은 Wang[31]을 참고할 수 있다.
context-aware persona fusion strategy을 사용하는 MiniLM의 모델 아키텍처 개요는 그림 3에 나와 있습니다.
이 전략에서는 모든 페르소나 프로필이 직접 연결되고 컨텍스트 발화가 [SEP] 토큰으로 연결 및 분리되는 이전 연구의 설정을 따릅니다[15, 38].
그런 다음 페르소나와 컨텍스트가 [SEP] 토큰으로 연결됩니다.
연결된 페르소나 컨텍스트 조합은 Seq2Seq 생성을 위한 입력으로 모델에 제공됩니다.
생성된 응답의 관련성과 다양성을 평가하기 위해 널리 사용되는 두 가지 측정항목을 사용합니다.

관련성을 위해 BLEU 1-4와 길이의 가중치 합인 BLEU [22]를 사용합니다.

다양성을 위해 인스턴스 수준에서 유니그램 및 바이그램 고유 비율(DIST-1, DIST-2)을 계산합니다[13].
표 7은 원본 버전의 페르소나를 사용하여 응답 생성 작업에 대한 컨텍스트 인식(CA) 페르소나 융합 전략을 사용하는 MiniLM의 성능을 보여줍니다.
우리가 볼 수 있듯이 결론은 응답 선택에 대한 결론과 일치합니다.

즉 파트너의 페르소나도 응답을 선택하는데 중요하다는 것

첫째, 파트너 페르소나와 비교하여 셀프 페르소나는 관련성 및 다양성 메트릭 모두에서 더 나은 결과를 달성하는 데 도움이 될 수 있으며, 이는 셀프 페르소나가 응답을 말하려는 화자에 대한 보다 기본적인 정보를 제공할 수 있음을 보여줍니다.
둘째, 이전 연구에서는 파트너 페르소나가 대부분 유용하지 않다고 생각되었지만, 본 연구 결과에서는 파트너 페르소나가 응답 생성의 성과에 기여하는 것으로 나타났습니다.
파트너 페르소나가 주어지면 MiniLM 기반 모델에서 BLEU 점수가 향상됩니다.
우리는 자신과 파트너 페르소나가 응답 생성에 다르게 기여한다고 가정하지만 표 8에 표시된 예는 우리의 가정을 어느 정도 확인할 수 있습니다.
보시다시피 파트너 페르소나를 자기 페르소나와 동등하게 고려하면 생성된 응답이 자신 또는 파트너의 정보를 혼동하게 만듭니다.
응답 생성 작업에서 자신과 파트너를 위한 효과적인 페르소나 융합 전략을 설계하는 것은 큰 범위이며 향후 작업에 맡길 것입니다.

6 CONCLUSIONS

이 논문에서는 검색 기반 챗봇에서 개인화된 응답 선택에 대한 자신 및 파트너 페르소나의 영향을 탐색하기 위해 4가지 페르소나 융합 전략을 제안합니다.
이러한 전략은 평가 및 비교를 위해 세 가지 대표적인 모델로 구현됩니다.
Persona-Chat 데이터 세트에 대한 경험적 연구는 이전 연구에서 무시된 파트너 페르소나가 특정 조건에서 여전히 성능을 향상시킬 수 있음을 보여줍니다.
게다가, 우리가 제안한 모델은 응답 선택의 정확도를 개선하여 이전 방법을 크게 능가하고 Persona-Chat 데이터 세트에서 응답 선택의 새로운 최첨단 성능을 달성합니다.
앞으로 우리는 대화에서 파트너의 유용성을 더욱 검증하기 위해 대화 응답 생성을 위한 자신 및 파트너 페르소나의 영향을 탐색하는 작업을 할 것입니다.

Reference

https://arxiv.org/pdf/2105.09050.pdf

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-151, Partner Matters! An Empirical Study on Fusing Personas for Personalized Response Selection in Retrieval-Based Chatbots, SIGIR 2021

◼ Comment

0 Abstract

1 INTRODUCTION

2 RELATED WORK

3 TASK DEFINITION

4 PERSONA FUSION FOR RESPONSE SELECTION

4.1 Sentence-Encoding-Based Model

4.1.1 None-Aware Persona Fusion.

4.1.2 Context-Aware Persona Fusion.

4.1.3 Response-Aware Persona Fusion.

4.1.4 Context-Response-Aware Persona Fusion.

4.2 Cross-Attention-Based Model

4.3 Pretraining-Based Model

4.3.1 None-Aware Persona Fusion.

4.3.2 Context-Aware Persona Fusion.

4.3.3 Response-Aware Persona Fusion.

4.3.4 Context-Response-Aware Persona Fusion.

5 EXPERIMENTS

5.1 Dataset

5.2 Evaluation Metrics

5.3 Training Details

5.4 Comparison Methods

5.5 Experimental Results

5.6 Analysis

5.7 Discussion on Response Generation

6 CONCLUSIONS

댓글

댓글 쓰기