NL-151, Partner Matters! An Empirical Study on Fusing Personas for Personalized Response Selection in Retrieval-Based Chatbots, SIGIR 2021

◼ Comment

  • 이 논문의 핵심 중 하나는 self 페르소나말고 partner 페르소나도 응답선택(생성)에 중요하다는 것이다.
  • 아쉬운 것은 self, partner을 동시에 쓰는 것이 아니라 따로따로 사용한다는 것이다.
  • 즉 self 반영한 모델, partner 반영한 모델 이렇게 존재하는 것
  • 아무튼 성능은 self을 반영한 모델이 당연히 좋다.
  • 모델에는 HRE, IMN, BERT 3가지를 시도했는데 압도적으로 BERT가 좋다.
  • 그리고 4가지 persona 융합과정을 소개하는데 사실 이는 HRE, IMN 방식에 결합할때 그럴싸하긴 한데...
  • BERT에는 크게 유의미하게 결합하는 느낌은 아니다.
    • 그냥 요렇게 저렇게 실험한 느낌ㅋㅋ
  • 뭐 아무튼, BERT에서 [persona; context; response] 식으로 하고 몇 가지 embedding을 추가해서 성능을 향상시켰다.
  • 근데 persona는 모든 persona을 다쓴다는 것이 조금 아쉬운 거 같긴 하다.
    • persona grounding에 대한 시도가 없다는 것..
    • 대신 attention 기반으로 soft aggregation 느낌으로 persona을 사용하긴 한다.
  • 논문 자체는 읽기 쉽게 되어있는 어플리케이션 형태여서 참고하기 좋았다.

0 Abstract

  • Persona는 대화 시스템의 일관성을 유지하기 위한 prior knowledge으로써 작동할 수 있다.
  • 대부분의 이전의 연구들은 대화의 self-persona의 response가 candidates의 세트로부터 선택되거나 바로 생성되는데 적용되었지만, 대화의 partner의 role에 대해서는 연구가 거의 없었다.
  • 이 논문에서는 검색기반 챗봇에서 response selection의 테스크에 대해 self or partner speakers 둘다 설명하기 위해 personas 활용의 영향을 철저히 탐구하려고 시도한다.
  • 4개의 persona fusion 전략들이 고안되었고, 이는 personas가 contexts 혹은 responses와 다른 방식으로 상호작용한다.
  • 이 전략들은 response selection을 위해 3개의 representative models에 적용되고, 이는 Hierarchical Recurrent Encoder (HRE), Interactive Matching Network (IMN)와 BERT을 각각 기반으로한다.
  • Persona-chat 데이터세트에 대한 경험적인 결과들은 이전의 연구들에서 무시된 partner personas가 IMN, BERT 기반의 모델들의 response selection 성능을 향상시킬 수 있음을 보여준다.
  • 게다가, 우리의 context-response-aware persona 결합 전략을 가지는 BERT-based 모델은 이전의 방법들보다 2.7% (original personas)와 4.6% (revised personas) 만큼 hits@1 (top-1 성능) 향상시키고, 이는 persona-chat 데이터세트에서 SoTA을 달성한다.

1 INTRODUCTION

  • 인간과 유사한 대화 시스템을 구축하는 것은 인공 지능의 오랜 목표였으며, 여기서 주요 과제 중 하나는 일관된 성격을 제시하는 것입니다[38].
  • 대화 맥락과 화자의 페르소나를 고려하여 일련의 후보자 중에서 적절한 응답을 선택하는 것을 목표로 하는 개인화 응답 선택은 검색 기반 챗봇에서 대화 에이전트의 성격을 제시하는 중요한 기술입니다[8, 9, 18, 35, 37 ].
  • 검색 기반 챗봇은 일반적으로 대화 에이전트를 구축하는 데 사용됩니다[4–7, 16, 28, 29, 33, 34, 36, 40]. 오늘날 많은 회사들이 유망한 잠재력과 매혹적인 상업적 가치 때문에 검색 기반 가상 비서를 구축했습니다[2, 11, 39].
  • Zhang은 개인화된 대화 에이전트를 구축하기 위한 Persona-Chat 데이터 세트를 구성했으며, 여기서 각 페르소나는 프로필 설명의 여러 문장으로 표현되었습니다.
  • Persona-Chat 데이터 세트의 지정된 프로필을 조건으로 하는 원시 예제 대화가 표 1에 나와 있습니다.
  • 개인화된 대화 에이전트를 구축하는 데 큰 진전이 있었지만[8, 9, 14, 18, 35, 37], 아직 초기 단계에 있습니다.
  • 대부분의 선행 연구들은 대화에서 자신이 self speaker의 페르소나에 대해 응답을 하려고 하는 것에 초점을 맞추었지만, partner speaker 페르소나가 대화에 기여하는 경우는 거의 관찰되지 않았다.
  • 페르소나를 조건으로 하는 대화의 경우 대화 에이전트가 파트너 페르소나에 액세스할 수 없는 경우 에이전트 자체와 관련된 응답 검색에 과도하게 집중하는 경우가 많으며, 이는 대화가 실제로 어떻게 진행되는지에 대한 기본 진실에서 벗어나는 경우가 있습니다.
  • 예를 들어, 취미에 대한 대화가 주어지면 에이전트가 "나는 농구를 하는 것을 좋아합니다"라는 자기 페르소나 프로필에만 액세스할 수 있는 경우 종종 "나는 스포츠를 좋아합니다"와 같은 응답 후보에 과도하게 가중치를 줍니다.
    • 근데 어쨌든, PMRS 테스트 데이터세트가 이러한 걸 반영한거 아닌가?
  • 그러나, 만약 agent 또한 partner persona profile “I often play various instruments”에 접근할 수 있다면, 이는 모델을 좀 더 유연하게 해서 agent 자신에 대해 얘기하는 것에 집중할 뿐만 아니라 좀 더 조화로운 대화를 수행하게한다.
    • 즉  asking questions such as “Who is your favorite musician”, as the real conversations often proceed.
  • 대화 속의 다른 화자들의 persona들이 일관된 personalized 대화모델들에 어떻게 기여하는지는 근본적인 문제이다.
  • 적절한 응답을 직접 선택하는 서로 다른 페르소나의 능력을 비교하기 위해 먼저 컨텍스트 정보를 제거하고 주어진 자신 또는 파트너 페르소나 정보만으로 적절한 응답을 검색하여 예비 실험을 수행합니다.
    • 내가하는 것과 비슷한 듯
  • HRE(Hierarchical Recurrent Encoder)[25], IMN(Interactive Matching Network)[6] 및 BERT(Bidirectional Encoder Representations from Transformers)[3]가 일치 모델로 선택되었으며 결과는 표 2에 나와 있습니다.
  • 결과는 단일 페르소나-응답 매칭이 유사한 성능을 달성할 수 있음을 보여주며, 이는 적절한 응답을 선택하기 위해 페르소나 정보를 활용하는 유용성을 보여줍니다.
    • 이미 실험결과가 있긴 함
  • 한편, partner persona는 self persona보다 덜 중요하지만 여전히 응답 선택에 어느 정도 기여할 수 있음을 알 수 있으며 이는 위에서 언급한 가정과 일치합니다.
    • 이 논문의 핵심
    • 그러나 대화에서 파트너의 역할에 대해 주목한 연구는 거의 없으며 파트너 화자의 페르소나가 어떤 조건에서 더 기여할 수 있는지에 대해서는 아직 많이 연구되지 않았습니다.
  • 이를 위해 우리는 self or partner 화자를 설명하는 페르소나를 활용하여 개인화된 응답 선택 작업에 미치는 영향을 탐색하려고 합니다.
  • 4가지 페르소나 융합 전략, 즉 NA(None-aware), CA(Context-Aware), RA(Response-Aware), CRA(Context-Response-Aware)은 페르소나와 컨텍스트 간의 상호 작용뿐만 아니라 페르소나와 응답 간의 상호 작용을 고려하는지 여부를 기반으로 설계되었습니다.
  • 철저한 비교 및 분석을 위해 이 4가지 전략을 각각 HRE, IMN 및 BERT 모델을 기반으로 하는 대응 선택을 위한 3가지 대표적인 모델로 구현합니다.
  • HRE는 응답 선택을 위한 문장 인코딩 기반 프레임워크를 따릅니다. 
    • 이 프레임워크는 컨텍스트와 응답을 상호 작용 없이 별도로 인코딩하고 임베딩을 별도로 얻습니다.
  • IMN은 cross attention 기반 프레임워크의 대표적인 모델로 컨텍스트와 응답 간의 대화식 매칭을 수행하여 컨텍스트 간의 매칭 정보를 도출합니다.
    • 한편, IMN은 본 논문에서 구현한 HRE와 가장 유사한 아키텍처를 공유하므로 컨텍스트와 응답 간의 상호 작용이 페르소나 융합에 미치는 영향을 탐색할 수 있습니다.
  • BERT 기반 응답 선택 모델은 컨텍스트와 응답 간의 상호 작용을 수행할 뿐만 아니라 사전 학습을 통해 일반 분포 의미 및 기타 지식을 통합합니다.
    • 우리는 페르소나를 조건으로 하는 다중 턴 대화를 포함하는 현재까지 가장 큰 공개 데이터 세트인 Persona-Chat 데이터 세트[35]에서 모델을 소개하고 제안된 페르소나 융합 방법을 테스트합니다.
  • 실험 결과는 파트너 페르소나가 IMN 및 BERT 기반 모델을 사용할 때 성능에 기여함을 보여줍니다.
  • 게다가 사전 훈련 알고리즘은 더 많은 컨텍스트가 주어지면 깊은 의미를 포착하는 데 도움이 될 수 있습니다.
  • 또한, 이전 방법과 비교하여 컨텍스트 응답 인식 페르소나 융합 전략으로 구현된 BERT 기반 모델은 원래 페르소나에서 2.7%, 수정된 페르소나에서 4.6% 향상된 hit@1(top-1 정확도)으로 이 데이터 세트에서 새로운 최첨단 성능을 달성했습니다.
  • 요약하자면, 이 논문의 기여는 두 가지입니다. 
    • 첫째, 4가지 페르소나 융합 전략을 3가지 모델로 설계 및 구현하여 자신뿐만 아니라 파트너 화자의 페르소나 활용이 응답 선택에 미치는 영향을 탐색합니다. 
    • 둘째, 실험 결과는 널리 사용되는 Persona-Chat 응답 선택 벤치마크에서 제안한 모델이 기존의 최첨단 모델을 크게 능가함을 보여줍니다.

2 RELATED WORK

  • 잡담 모델은 일반적으로 각기 다른 화자와 함께 많은 대화에 대해 훈련을 받았기 때문에 일관된 성격이 결여되어 있으며, 일반적으로 아주 최근의 대화에서만 발화를 생성하도록 훈련되기 때문에 명시적 장기 기억이 부족합니다. 
  • 대화 에이전트를 구축하는 데 사용되는 기존 방법은 일반적으로 generation-based [14, 25, 26]과 retrieval-based 방법[4–7, 16, 28, 29, 33, 34, 36, 40]으로 분류할 수 있습니다.
  • 오늘날 많은 기업들이 유망한 잠재력과 매혹적인 상업적 가치로 인해 개인화된 가상 비서를 구축했습니다[2, 11, 39]. 
  • Li et al. [14]는 background information and speaking style과 같은 개인의 특성을 포착하기 위해 페르소나 기반 신경 대화 모델을 제안했습니다.
    • 생성기반의 방법임
  • Miller et al. [20]은 키-값 메모리 네트워크를 제안했는데 여기서 키는 대화 기록, 즉 컨텍스트이고 값은 다음 대화 발화입니다. 
  • Zhang et al. [35]는 개인화된 대화 에이전트를 구축하기 위한 Persona-Chat 데이터 세트를 구성했는데, 이는 페르소나를 조건으로 하는 다중 턴 대화를 포함하는 현재까지 가장 큰 공개 데이터 세트입니다.
  • 또한 대화 내역을 입력으로 고려한 다음 대화 내역과 결합할 페르소나에 주의를 기울임으로써 프로필 메모리 네트워크와 같은 이 벤치마크에 대한 많은 기준을 설정했습니다.
  • Mazareet al. [18]은 먼저 Reddit 기반의 대규모 코퍼스를 사용하여 모델을 사전 학습하여 페르소나를 조건으로 하는 가치 있는 대화를 추출한 후 이러한 사전 학습된 모델을 Persona-Chat에서 미세 조정하는 미세 조정된 Persona-Chat(FT-PC) 모델을 제안했습니다. (채팅 데이터세트.)
  • Zheng et al. [38]은 나이, 성별 및 위치와 같은 명시적인 성격 특성을 대화에 통합할 것을 제안했습니다.
  • Luo et al. [17]은 프로필 모델과 선호도 모델을 개인화된 MEMN2N으로 결합하여 사용자 프로필을 분산된 임베딩으로 인코딩하고 다른 유사한 사용자의 대화 기록을 참조하도록 제안했습니다.
    • 그런 다음 PREFERENCE MODEL은 지식 기반 엔터티에 대한 사용자 기본 설정을 캡처하여 사용자 요청의 모호성을 처리합니다.
  • Zhao et al. [37]은 페르소나와 컨텍스트의 정보를 서로의 표현으로 융합하고 페르소나 정보가 필요한지 여부와 페르소나 및 컨텍스트의 다른 부분의 중요성을 동적으로 결정하는 DGMN(Document-grounded matching network)을 제안했습니다.
  • Guet al. [9]는 응답 후보의 순위를 매기기 위해 응답과 컨텍스트 간, 응답과 페르소나 간에 각각 대화형 매칭을 수행하여 대화 에이전트의 성격을 제시하는 이중 대화형 매칭 네트워크(DIM)를 제안했습니다.
  • Wolf et al. [32] 및 Liu et al. [15] 둘 다 개인화된 대화 에이전트를 구축하기 위해 GPT(Generative Pretrained Transformer)[24]의 사전 훈련된 언어 모델을 사용했습니다. 
  • Guet al. [8]은 대화를 주어진 지식에 기초하여 반복적으로 참조(FIRE)한 다음 심층적이고 반복적인 매칭을 수행하기 전에 필터링을 제안했습니다.
  • 일반적으로 이러한 방법의 대부분은 대화에서 자기 페르소나를 채택했습니다. 
  • 우리가 아는 한 Zhang et al. Persona-Chat 데이터 세트를 구성한 [35]은 파트너 페르소나를 활용하기 위한 몇 가지 기준을 설정했으며 Gu et al. [9] 방금 파트너 페르소나 설정에서 방법을 테스트했습니다. 
  • 특정 조건에서 성과를 개선하기 위해 파트너 페르소나를 활용하는 방법에 대한 후속 작업은 없었습니다.
  • 따라서 본 논문에서는 자신뿐만 아니라 파트너 화자의 페르소나를 활용하는 것이 개인화 응답 선택의 수행에 미치는 영향을 철저히 탐구하고자 한다.
  • 이 문서의 초점은 과감하게 새로운 모델을 설계하는 것이 아니라 자신과 파트너 페르소나가 작동할 수 있는 조건을 조사하는 데 있다는 점을 강조해야 합니다.
  • 우리는 자신뿐만 아니라 파트너 화자의 페르소나를 활용하여 개인화된 응답 선택에 미치는 영향을 종합적으로 이해하는 것을 목표로 합니다.
  • 따라서 우리는 4가지 페르소나 융합 전략을 설계하고 3가지 매우 대표적인 모델을 선택하여 이러한 전략의 효과를 검증하기 위해 이러한 전략을 이러한 모델에 적용합니다.
  • 모델은 이 문서의 초점이 아닌 이러한 전략을 적용하기 위한 테스트베드일 뿐이므로 다른 모델을 선택할 수 있습니다.
  • 대신, 자신과 파트너 페르소나가 작동할 수 있는 조건을 탐색하는 것이 우리의 초점입니다. 
  • 우리의 작업이 응답 선택 성능을 더욱 향상시키기 위해 자신과 파트너 페르소나를 결합하는 데 도움이 되기를 바랍니다.

3 TASK DEFINITION

  • personas을 가지는 대화 데이터세트 D가 주어졌을 때, 데이터세트의 예제는 tupe (𝑐, 𝑝, 𝑟, 𝑦) 으로 표현되고 테이블1에서 보여준다.
  • 구체적으로, 𝑐 = {𝑢1, 𝑢2, ..., 𝑢𝑛𝑐 }는 발화로써 {𝑢_𝑚}^𝑛𝑐_𝑚=1을 가지는 context을 표현하고, 𝑛𝑐는 발화의 수이다.
  • 𝑝 = {𝑝1, 𝑝2, ..., 𝑝_𝑛𝑝}는 프로필 문장으로써 persona {𝑝𝑛}^𝑛𝑝_𝑛=1을 표현하고, 𝑛𝑝는 profile 수이다.
  • 𝑟는 response candidate을 표현한다.
    • 𝑦 ∈ {0, 1} denotes a label. 
    • 𝑦 = 1 indicates that 𝑟 is a proper response for (𝑐, 𝑝); otherwise, 𝑦 = 0.
  • Our goal is to learn a matching model 𝑔(𝑐, 𝑝, 𝑟) from D.
  • For any context-persona-response triple (𝑐, 𝑝, 𝑟), 𝑔(𝑐, 𝑝, 𝑟) measures the matching degree between (𝑐, 𝑝) and 𝑟.

4 PERSONA FUSION FOR RESPONSE SELECTION

  • 대화속의 다른 화자들의 personas을 캡쳐하는 것은 personalized dialogue agents을 개발하는데 키이다.
  • self and partner 페르소나가 대화에 미치는 영향을 철저히 탐구하기 위해 페르소나가 컨텍스트 또는 응답과 다른 방식으로 상호 작용한다고 가정하고 3가지 모델로 구현하는 4가지 페르소나 융합 전략을 설계합니다.
    • 이는 sentence-encoding-based, cross-attention-based, pretrainin-based 기반들이다.
  • 모델 구조와 전략에 대한 자세한것은 이 섹션에서 소개된다.

4.1 Sentence-Encoding-Based Model

  • 멀티턴 대화에서 sentence-encoding-based 프레임워크 아래의 대표적인 model은 Hierarchical Recurrent EncoderDecoder (HRED) [25]로, 이는 기존에 대화 생성을 위해 제안되었던 것이다.
  • 여기서, 우리는 오직 인코딩된 임베딩을 얻기 위해 인코더 파트가 필요하고, 그래서 우리는 Hierarchical Recurrent Encoder (HRE)라고 이 논문에서 명명한 것이다.
  • Figure 1 (a) shows an overview of the architecture. 
  • 먼저, 우리는 IMN [6]에서 사용된 세팅을 따른다, 이는 general pretrained word embeddings을 결합한 word representations을 구축하는 것이고, 이들은 task-specific training set에서 측정된다.
    • 뿐만 아니라 character-level embeddings으로 out-of-vocabulary issue을 해결하려고 한다.
  • 형식적으로, 컨텍스트에서 m번째 발화의 임베딩들, persona에서 n번째 profile sentence와 response candidate은 $\textbf{U}_m = \{\textbf{u}_{m,i} \}^{l_{u_m}}_{i=1}$, $\textbf{P}_n = \{\textbf{p}_{n,j} \}^{l_{p_n}}_{j=1}$, $\textbf{R} = \{\textbf{r}_{k} \}^{l_{r}}_{k=1}$으로 표기된다.
    • 𝑙𝑢𝑚 , 𝑙𝑝𝑛 and 𝑙𝑟 are the numbers of words in U𝑚, P𝑛 and R 
    • Each u𝑚,𝑖, p𝑛,𝑗 or r𝑘 is an embedding vector. 
    • 여기서 partner의 persona도 중요하다고 하는데, 여기서 입력되는 persona은 self, partner 둘 중하나이다. 즉 결합해서 사용하는 개념이 아닌듯
  • context, utterances, persona profiles과 reesponse candidate는 BiLSTMs으로 인코딩된다.
  • Detailed calculations of BiLSTM are omitted due to limited space. We denote the calculations as
    • 여기서 U¯𝑚 = {u¯𝑚,𝑖 } , P¯ 𝑛 = {p¯𝑛,𝑗 } 및 R¯ = {r¯𝑘 } .
    • 이 세 가지 BiLSTM의 매개변수는 구현에서 공유됩니다.
    • 각 u¯𝑚,𝑖, p¯𝑛,𝑗 또는 r¯𝑘은 임베딩 벡터입니다.
  • 일치 행렬 U¯𝑚, P¯ 𝑛 및 R¯은 임베딩 벡터를 다음과 같이 유도하기 위해 최대 및 마지막 은닉 상태 풀링 연산에 의해 집계됩니다.
  • 다음으로, u 𝑎𝑔𝑟 𝑚 및 p 𝑎𝑔𝑟 𝑛의 시퀀스는 컨텍스트와 페르소나 각각에 대한 임베딩 벡터를 얻기 위해 추가로 집계됩니다.
  • 컨텍스트의 발언이 시간순으로 정렬되기 때문에 발언 임베딩 U¯ 𝑎𝑔𝑟 = {u¯ 𝑎𝑔𝑟 𝑚 }은 컨텍스트의 발언 순서에 따라 다른 BiLSTM으로 전송됩니다.
  • 결합된 최대 풀링 및 마지막 숨김 상태 풀링 작업은 다음과 같이 컨텍스트 임베딩을 얻기 위해 수행됩니다.
  • 유사하게, profile embeddings 시퀀스 {p¯ 𝑎𝑔𝑟 𝑛 } 𝑛𝑝 𝑛=1 가 주어지면 pˆ 𝑎𝑔𝑟를 포함하는 집계 페르소나 페르소나 퓨전은 페르소나 융합에 의해 얻어집니다.
  • 본 논문에서는 페르소나와 컨텍스트 간의 상호작용, 페르소나와 응답 간의 상호작용을 고려하는지 여부에 따라 4가지 페르소나 융합 전략을 설계하였다.

4.1.1 None-Aware Persona Fusion.

  • 이 전략에서 페르소나 융합은 컨텍스트와 응답 모두에 독립적입니다.
    • 이게 말이되나?
  • self-attention-based Aggregation은 다음과 같이 페르소나 임베딩을 도출하도록 설계되었습니다.
    • where w and 𝑏 are parameters that need to be estimated during training. 
  • 그런 다음 통합된 페르소나 임베딩은 식 (17)과 같이 최종 매칭 특성의 일부로 융합됩니다.
  • 이 페르소나 융합 전략은 컨텍스트 및 응답에 대한 정보를 인식하지 못하므로 이에 따라 본 논문에서는 이를 NA(None-Aware) 페르소나 융합으로 명명합니다.
    • 아마도, context, response 상관없이 그냥 persona embedding을 결합하는 그런 개념인듯
    • 물론 식 17에서 concat후, MLP layer 등을 통해 조금은 결합이 되긴 할듯
    • 단지, persona embedding와 context, response embedding와 직접적으로 결합을 안한다?

4.1.2 Context-Aware Persona Fusion.

  • 페르소나 융합 시 컨텍스트 정보를 인지하기 위해 컨텍스트 임베딩과 각 프로필 임베딩 간의 유사도를 계산한 후 어텐션 연산을 수행하여 집합된 페르소나 임베딩 (pˆ𝑎𝑔𝑟)을 얻음으로써 컨텍스트 인식(CA) 페르소나 융합 전략을 설계합니다. 
  • 이러한 persona fusion strategy은 프로파일 임베딩에 동적으로 컨텍스트의 유사성에 따라 다른 중요성을 부여하여 컨텍스트 정보를 인식하므로 본 논문에서는 이를 컨텍스트 인식(CA) 페르소나 퓨전이라고 명명합니다. 

4.1.3 Response-Aware Persona Fusion. 

  • 유사하게, 우리는 응답 임베딩과 각 프로파일 임베딩 간의 유사성을 계산하고 다음과 같이 집계된 페르소나 임베딩 pˆ 𝑎𝑔𝑟를 얻기 위해 주의 연산을 수행하여 응답 인식(RA) 페르소나 융합 전략을 설계합니다.
  • Then the same attention operation as Eq. (10) is performed to obtain pˆ 𝑎𝑔𝑟 .

4.1.4 Context-Response-Aware Persona Fusion. 

  • 컨텍스트와 응답 정보를 동시에 인식하기 위해 컨텍스트 응답 인식(CRA) 페르소나 융합 전략을 설계합니다.
  • 이 전략은 먼저 컨텍스트와 응답 임베딩을 연결한 다음 선형 변환을 통해 동일한 차원의 프로필 임베딩으로 변환합니다.
  • 유사성은 그것과 각 프로파일 임베딩 사이에서 계산됩니다.
  • 그런 다음 pˆ 𝑎𝑔𝑟를 얻기 위해 동일한 주의 연산이 수행됩니다. 수학적으로 우리는
  • Lastly, after obtaining the aggregated persona embedding pˆ 𝑎𝑔𝑟 , the final matching feature vector is the concatenation of the context, persona and response embeddings as
  • 그런 다음 최종 일치하는 특징 벡터가 MLP(다층 퍼셉트론) 분류기로 전송됩니다.
  • 여기서 MLP 분류기는 파생된 매칭 특징 벡터를 기반으로 context-response-persona 트리플(𝑐, 𝑝, 𝑟)이 적절하게 일치하는지 예측하고 이 트리플의 일치 정도를 나타내는 점수를 반환하도록 설계되었습니다.
  • 마지막으로 모든 응답 후보에 대한 확률 분포를 반환하기 위해 MLP에 softmax 출력 레이어가 채택되었습니다.
  • MLP 교차 엔트로피 손실을 최소화하여 모델을 학습합니다. Θ가 모델 매개변수를 나타냅니다.
  • The learning objective L (D, Θ) is formulated as 
    •  

4.2 Cross-Attention-Based Model

  • 다중 턴 대화를 위한 교차 주의 기반 프레임워크에서 대표적인 모델은 다중 턴 응답 선택을 위해 원래 제안된 IMN(Interactive Matching Network)[6]입니다.
  • 이 모델을 선택하는 또 다른 이유는 우리가 이 백서에서 구현한 HRE와 가장 유사한 아키텍처를 공유하므로 컨텍스트와 응답 간의 상호 작용이 페르소나 융합에 미치는 영향을 탐색할 수 있기 때문입니다.
    • 즉 4.2는 IMN을 의미함
  • 그림 1(b)는 아키텍처의 개요를 보여줍니다.
  • IMN은 단어 표현, 문장 인코딩, 집계, 페르소나 융합 및 예측의 동일한 모듈을 HRE와 공유합니다.
  • 또한 IMN은 컨텍스트와 응답 간의 일치 정보를 캡처하기 위해 컨텍스트와 응답 간에 전역 및 양방향 교차 주의 작업을 수행하는 상호 작용 모듈을 갖추고 있습니다.
  • 다음과 같이 상호작용 모듈을 간략히 소개하며 독자들은 IMN에 대한 자세한 내용은 [6]을 참조할 수 있습니다.
  • 먼저, wording embedding 테이블을 조회하고 문장 인코더에 의해 인코딩되어 utterance representations {U¯𝑚} 세트와 response representations R¯ 세트를 도출한 후, utterance representations 세트와 concat하여 context representation C¯ = {c¯𝑖 }이 형성됩니다.
  • 그런 다음 IMN은 전체 컨텍스트를 단일 시퀀스로 간주하여 전역 및 양방향 방식으로 응답을 전체 컨텍스트와 일치시킵니다.
  • global context-response matching은 전체 컨텍스트에서 가장 관련성이 높은 부분을 선택하고 관련 없는 부분을 무시하는 데 도움이 될 수 있습니다.
  • 주의 기반 정렬은 각 (c¯𝑖 , r¯𝑘 ) 튜플 간의 주의 가중치를 다음과 같이 계산하여 컨텍스트와 응답 간의 정보를 수집하는 데 사용됩니다.
  • 응답에 있는 단어의 경우 컨텍스트에 대한 응답 관련 표현은 {c¯𝑖 } 의 가중치 합산으로 구성됩니다.
  • 컨텍스트의 각 단어에 대해 동일한 계산이 수행되어 {r¯𝑘 } 의 가중 합계로 컨텍스트 대 응답 표현을 구성합니다.
  • 수집된 정보를 더욱 향상시키기 위해, 문장 인코더 이후의 요소별 차이 및 해당 표현과의 곱을 계산한 다음 연결하여 향상된 표현을 얻습니다.
  • 마지막으로 연결된 컨텍스트 표현은 추가 집계를 위해 전송되는 별도의 발화 표현으로 다시 변환되어야 합니다. 
  • IMN의 페르소나 집계는 HRE의 페르소나 집계와 동일합니다. 
  • 자세한 내용은 4.1절을 참조하십시오.

4.3 Pretraining-Based Model

  • 사전 훈련 기반 프레임워크의 대표적인 모델은 BERT(Bidirectional Encoder Representations from Transformers)[3]입니다.
  • 공간 제한으로 인해 BERT에 대한 완전한 배경 설명은 생략합니다. 
  • 자세한 내용은 [3]을 참조하십시오.
  • 4가지 페르소나 융합 전략은 다양한 방식으로 개인화된 응답 선택 작업에 맞게 BERT를 조정하여 구현됩니다.

4.3.1 None-Aware Persona Fusion.

  • 이 전략에서는 두 개의 인코딩 파이프라인으로 구성된 이중 일치 아키텍처를 제안합니다.
  • 하나는 컨텍스트와 응답 간의 매칭 특성을 도출하는 데 사용되며, 다른 하나는 페르소나 융합 특성을 도출하는 데 사용됩니다.
  • 마지막으로 이 두 기능을 연결하여 최종 기능을 형성합니다. 
  • 그림 2(a)는 아키텍처의 개요를 보여줍니다.
  • 컨텍스트와 응답 간의 일치하는 기능을 도출하기 위해 BERT에서 컨텍스트가 시퀀스 A를 형성하는 데 사용되고 응답이 BERT에서 시퀀스 B를 형성하는 데 사용된다는 원래 BERT의 구성을 따릅니다.
  • 그런 다음 이 두 시퀀스를 [SEP] 토큰과 연결하여 더 긴 시퀀스를 얻습니다.
  • 스택된 Transformer 블록[30]에 의해 인코딩된 후, 연결된 각 시퀀스의 첫 번째 토큰[CLS]의 포함이 컨텍스트-응답 쌍에 대한 일치 기능으로 사용됩니다.
  • 페르소나 융합 기능을 파생할 때 페르소나 자체는 컨텍스트 또는 응답과의 상호 작용 없이 인코딩을 위해 BERT로 전송됩니다.
  • 유사하게, 페르소나 시퀀스의 첫 번째 토큰[CLS]의 임베딩은 페르소나 융합 기능으로 사용됩니다.
  • 마지막으로 매칭 특징과 페르소나 융합 특징을 연결하여 최종 특징을 형성한다.
  • 이 기능은 페르소나 컨텍스트 응답 트리플에서 일치하는 정보를 캡처하여 시그모이드 출력 레이어가 있는 MLP 분류기로 전송됩니다.
  • 분류기는 이 트리플의 일치 정도를 나타내는 점수를 반환합니다.

4.3.2 Context-Aware Persona Fusion.

  • 이 전략은 페르소나와 컨텍스트의 연결을 인코딩을 위해 BERT로 전송하여 페르소나 융합 기능이 파생된다는 점을 제외하고 BERT의 none-aware persona fusion 전략과 유사합니다.
  • 그림 2(b)는 아키텍처의 개요를 보여줍니다.
  • 구체적으로, 페르소나는 BERT에서 시퀀스 A를 형성하는 데 사용되며 컨텍스트는 BERT에서 시퀀스 B를 형성하는 데 사용됩니다.
  • 그런 다음 이 두 시퀀스가 [SEP] 토큰으로 연결됩니다.
  • 마찬가지로 첫 번째 토큰[CLS]의 임베딩은 페르소나와 컨텍스트 간의 상호 작용을 통해 컨텍스트 정보를 인식하는 페르소나 융합 기능으로 사용됩니다.

4.3.3 Response-Aware Persona Fusion. 

  • 이 전략은 페르소나 융합 특성을 도출할 때 컨텍스트를 응답으로 대체한다는 점을 제외하고는 BERT의 컨텍스트 인식 페르소나 융합 전략과 유사합니다.
  • Figure 2 (b) shows an overview of the architecture.

4.3.4 Context-Response-Aware Persona Fusion.

  • 위에서 언급한 문맥-응답 매칭 특징과 페르소나 융합 특징을 각각 도출하는 전략과 달리, 본 전략에서는 두 가지 정보를 동시에 포함하는 특징을 도출하는 간단하면서도 효과적인 방법을 제안한다.
  • 그림 2(c)는 아키텍처의 개요를 보여줍니다. 
  • 구체적으로, 페르소나와 컨텍스트가 연결되어 시퀀스 A를 형성하고 응답을 사용하여 시퀀스 B를 형성합니다.
  • 그런 다음 이 두 시퀀스는 [SEP] 토큰으로 연결됩니다. 
  • 그것들을 더 구별하기 위해, 미세 조정 과정에서 업데이트되는 매개변수인 원래 시퀀스 A/B 임베딩 외에도 세 가지 하위 유형의 임베딩이 해당 토큰 표현에 추가됩니다.
  • 연결된 각 시퀀스의 첫 번째 토큰[CLS]의 인코딩된 임베딩은 페르소나 컨텍스트 응답 3중 분류에 대한 집계된 표현으로 사용됩니다.
  • 이 임베딩은 이 트리플에서 일치하는 정보를 캡처합니다. 
  • 이 전략에서 페르소나 퓨전은 컨텍스트와 두 가지와의 상호 작용을 통해 응답을 모두 인식합니다.
  • 마지막으로 이 emdedding은 MLP 분류기로 보내지고 이 트리플의 일치 정도를 나타내는 점수를 반환합니다.
  • 이 방법은 내가 현재하려고 하는 prompting 방법과 유사한데?
    • 근데 뭔가 이거는 추가적인 embedding을 더해주는 식
    • 내 방법은 persona grounding, prompt question, CLS 토큰 위치 정도가 이것과 다른것 같다.

5 EXPERIMENTS

5.1 Dataset

  • 우리는 페르소나를 조건으로 한 멀티턴 대화를 포함하는 현재까지 가장 큰 공개 데이터 세트인 Persona-Chat 데이터 세트[35]에 대해 제안된 방법을 테스트했습니다. 
  • 데이터 세트는 훈련을 위한 8939개의 완전한 대화, 검증을 위한 1000개, 테스트를 위한 968개의 대화로 구성됩니다. 
  • 응답 선택은 완전한 대화의 모든 턴에서 수행되며, 결과적으로 교육을 위한 65719개의 대화, 검증을 위한 7801개의 대화, 테스트를 위한 7512개의 대화가 생성됩니다. 
  • 긍정적인 응답은 사람의 실제 응답이고 부정적인 응답은 데이터 세트 릴리스에서 무작위로 샘플링됩니다. 
  • 양성 응답과 음성 응답의 비율은 훈련, 검증 및 테스트 세트에서 1:19입니다. 
  • 훈련용 페르소나는 955개, 검증용 100개, 테스트용 100개가 있으며 각각은 3~5개의 프로필 문장으로 구성됩니다. 
  • 대화와 페르소나 모두에 대한 교육/검증/테스트 세트 간에 겹치는 부분이 없습니다. 
  • 이 작업을 더 어렵게 만들기 위해 수정된 페르소나 설명 버전도 원래 설명을 바꾸거나 일반화하거나 전문화하여 제공됩니다.

5.2 Evaluation Metrics

  • 결과를 비교할 수 있도록 이전 작업 [9, 35]에서와 동일한 평가 메트릭을 사용했습니다. 
  • 각 모델은 주어진 컨텍스트𝑐 및 페르소나 𝑝에 대해 사용 가능한 후보 중에서 가장 일치하는 응답을 선택하는 것을 목표로 했습니다. 
  • 우리는 hit@1로 표시된 참 긍정 응답의 회상을 계산했습니다. 
  • 또한 모든 후보자에 대한 정답 순위를 고려하기 위해 MRR(Mean Reciprocal Rank)도 채택했습니다.

5.3 Training Details

  • HRE, IMN 및 해당 페르소나 퓨전 모델을 구축하기 위해 모든 응답 후보에 대한 softmax 출력 레이어를 사용하여 훈련 세트에서 긍정 및 부정 응답의 비율을 1:19로 설정했습니다.
  • Adam 방법[12]은 배치 크기가 16인 최적화를 위해 사용되었습니다.
  • 초기 학습률은 0.001이었고 5000단계마다 0.96씩 기하급수적으로 감소했습니다.
  • 0.2의 비율로 드롭아웃[27]이 단어 임베딩과 모든 은닉층에 적용되었습니다.
  • 훈련 Epoch의 최대 수는 10으로 설정되었습니다.
  • 단어 표현은 300차원 GloVe 임베딩[23], Word2Vec 알고리즘을 사용하여 훈련 세트에서 추정된 100차원 임베딩[19], 창 크기가 {3, 4인 150차원 문자 수준 임베딩의 연결입니다. , 5}, 각각 50개의 필터로 구성됩니다.
  • 학습 중에 단어 임베딩이 업데이트되지 않았습니다.
  • LSTM의 모든 숨겨진 상태에는 200개의 차원이 있습니다.
  • 예측 계층의 MLP는 ReLU [21] 활성화와 함께 256개의 은닉 유닛을 가지고 있습니다.
  • 단어의 최대 문자 수, 문맥 발화의 단어, 문맥의 발화, 페르소나 프로필의 단어, 페르소나의 프로필 및 응답의 단어의 최대 문자 수는 18, 20, 15, 15, 5, 20로 설정되었습니다.
  • 컨텍스트의 발화 수가 15개 미만이면 zero 패딩한다. 
    • 그렇지 않으면 마지막 15개의 발언을 유지했습니다.
  • 마찬가지로 페르소나의 프로필 문장 수가 5개 미만이면 zero 패딩한다. 
    • 검증 세트를 사용하여 테스트에 가장 적합한 모델을 선택했습니다.
  • BERT 및 그 페르소나 융합 모델을 구축하기 위해 기본 버전의 BERT를 사용했으며 다음 구성을 제외하고 원래 BERT의 대부분의 하이퍼 매개변수를 따랐습니다[3].
  • 초기 학습률은 2e-5로 설정되었으며 L2 가중치 감쇠에 의해 선형적으로 감쇠되었습니다.
  • 훈련 세트에서 긍정 응답과 부정 응답의 비율을 1:1로 설정하는 동적 부정 샘플링 전략을 채택했으며 각 Epoch마다 다른 부정 응답을 사용했습니다.
  • 따라서 훈련 epoch의 최대 수는 19로 설정되었습니다. 
  • 최대 시퀀스 길이는 320으로 설정되었습니다. 학습 배치 크기는 12로 설정되었습니다. 
  • 예측 계층의 MLP는 Sigmoid 활성화가 있는 단일 계층 피드포워드 신경망이었습니다.
  • 모든 코드는 TensorFlow 프레임워크[1]에서 구현되었으며 결과를 복제하는 데 도움이 되도록 게시되었습니다.

5.4 Comparison Methods

  • Non-pretraining-based methods. 
    • IR 기준선, Starspace, Profile 및 KV Profile은 Zhang et al. [35] Persona-Chat 데이터 세트를 출시한 사람입니다.
    • DGMN[37], DIM[9] 및 FIRE[8]는 사전 훈련을 사용하지 않은 후속 연구입니다.
    • 사전 훈련 기반 방법.
  • Pretraining-based methods. 
    • FT-PC[18]는 Reddit에서 대화를 추출한 도메인별 말뭉치에 대해 먼저 사전 학습한 다음 Persona-Chat에서 미세 조정하여 "pretrain and fine-tune" 프레임워크를 사용했습니다.
    • TransferTransfo[32]와 P2 Bot[15]는 모두 큰 일반 말뭉치에서 사전 훈련된 GPT[24]의 사전 훈련된 언어 모델로 초기화된 다음 Persona-Chat에서도 미세 조정되었습니다.

5.5 Experimental Results

5.6 Analysis

  • Subtype Embeddings
  • Retrieval Time

5.7 Discussion on Response Generation

  • 대화 생성을 위한 페르소나 융합이 이 논문의 초점은 아니지만, 우리는 자신 또는 파트너 페르소나도 응답 생성에 다르게 기여한다는 것을 보여주기 위해 예비 실험을 수행했습니다.
  • 응답 생성에서 추론하는 동안 응답 후보가 없는 동안 컨텍스트만 사용할 수 있다는 점에 유의하십시오.
  • 따라서 이 섹션에서는 컨텍스트 인식 페르소나 융합 전략에만 자신과 파트너 페르소나가 미치는 영향을 살펴보았습니다.
  • 이 전략은 사전 훈련 기반 모델에 구현되었습니다. 
  • 우리의 실험에서는 시간과 공간 복잡도를 고려한 경량 모델 MiniLM[31]을 채택했습니다.
  • 지면상의 제약으로 MiniLM의 소개는 생략하고 독자들은 Wang[31]을 참고할 수 있다.
  • context-aware persona fusion strategy을 사용하는 MiniLM의 모델 아키텍처 개요는 그림 3에 나와 있습니다.
  • 이 전략에서는 모든 페르소나 프로필이 직접 연결되고 컨텍스트 발화가 [SEP] 토큰으로 연결 및 분리되는 이전 연구의 설정을 따릅니다[15, 38].
  • 그런 다음 페르소나와 컨텍스트가 [SEP] 토큰으로 연결됩니다. 
  • 연결된 페르소나 컨텍스트 조합은 Seq2Seq 생성을 위한 입력으로 모델에 제공됩니다.
  • 생성된 응답의 관련성과 다양성을 평가하기 위해 널리 사용되는 두 가지 측정항목을 사용합니다.
    • 관련성을 위해 BLEU 1-4와 길이의 가중치 합인 BLEU [22]를 사용합니다.
  • 다양성을 위해 인스턴스 수준에서 유니그램 및 바이그램 고유 비율(DIST-1, DIST-2)을 계산합니다[13].
  • 표 7은 원본 버전의 페르소나를 사용하여 응답 생성 작업에 대한 컨텍스트 인식(CA) 페르소나 융합 전략을 사용하는 MiniLM의 성능을 보여줍니다.
  • 우리가 볼 수 있듯이 결론은 응답 선택에 대한 결론과 일치합니다.
    • 즉 파트너의 페르소나도 응답을 선택하는데 중요하다는 것
  • 첫째, 파트너 페르소나와 비교하여 셀프 페르소나는 관련성 및 다양성 메트릭 모두에서 더 나은 결과를 달성하는 데 도움이 될 수 있으며, 이는 셀프 페르소나가 응답을 말하려는 화자에 대한 보다 기본적인 정보를 제공할 수 있음을 보여줍니다.
  • 둘째, 이전 연구에서는 파트너 페르소나가 대부분 유용하지 않다고 생각되었지만, 본 연구 결과에서는 파트너 페르소나가 응답 생성의 성과에 기여하는 것으로 나타났습니다.
  • 파트너 페르소나가 주어지면 MiniLM 기반 모델에서 BLEU 점수가 향상됩니다.
  • 우리는 자신과 파트너 페르소나가 응답 생성에 다르게 기여한다고 가정하지만 표 8에 표시된 예는 우리의 가정을 어느 정도 확인할 수 있습니다.
  • 보시다시피 파트너 페르소나를 자기 페르소나와 동등하게 고려하면 생성된 응답이 자신 또는 파트너의 정보를 혼동하게 만듭니다.
  • 응답 생성 작업에서 자신과 파트너를 위한 효과적인 페르소나 융합 전략을 설계하는 것은 큰 범위이며 향후 작업에 맡길 것입니다.

6 CONCLUSIONS 

  • 이 논문에서는 검색 기반 챗봇에서 개인화된 응답 선택에 대한 자신 및 파트너 페르소나의 영향을 탐색하기 위해 4가지 페르소나 융합 전략을 제안합니다.
  • 이러한 전략은 평가 및 비교를 위해 세 가지 대표적인 모델로 구현됩니다.
  • Persona-Chat 데이터 세트에 대한 경험적 연구는 이전 연구에서 무시된 파트너 페르소나가 특정 조건에서 여전히 성능을 향상시킬 수 있음을 보여줍니다.
  • 게다가, 우리가 제안한 모델은 응답 선택의 정확도를 개선하여 이전 방법을 크게 능가하고 Persona-Chat 데이터 세트에서 응답 선택의 새로운 최첨단 성능을 달성합니다.
  • 앞으로 우리는 대화에서 파트너의 유용성을 더욱 검증하기 위해 대화 응답 생성을 위한 자신 및 파트너 페르소나의 영향을 탐색하는 작업을 할 것입니다.

Reference

댓글