NL-154, Partner Personas Generation for Dialogue Response Generation, NAACL 2022
0 Abstract
- 페르소나 정보를 통합하면 대화 응답 생성에서 다양하고 매력적인 응답이 가능합니다.
- 불행히도 이전 작업은 주로 자기 페르소나에 초점을 맞추고 파트너 페르소나의 가치를 간과했습니다.
- 또한 실제 응용 프로그램에서 골드 파트너 페르소나의 가용성은 그렇지 않은 경우가 많습니다.
- 이 문서는 자동 파트너 페르소나 생성을 활용하여 후속 대화 응답 생성을 향상시키는 새로운 프레임워크를 제공하여 이러한 문제를 해결하려고 시도합니다.
- 우리의 프레임워크는 보상 판단을 위해 전용으로 설계된 비평가 네트워크와 함께 강화 학습을 사용합니다.
- 자동 및 인간 평가의 실험 결과는 우리의 프레임워크가 실제 파트너 페르소나와 비교하더라도 관련성 있고 흥미롭고 일관성 있고 유익한 파트너 페르소나를 생성할 수 있음을 나타냅니다.
- 이는 실제 파트너 페르소나를 조건으로 하는 경쟁 기준을 능가하는 후속 대화 응답 생성을 향상시킵니다.
1 Introduction
- 유익하고 매력적인 대화 에이전트 구축 Zhang은 자연어 처리 분야에서 인기 있는 연구 방향입니다.
- 참여를 위해서는 다양하고 일관된 응답 송이 중요한 요소이며 페르소나 정보(Zhang et al., 2018)는 두 가지 모두를 발생시킵니다.
- 페르소나는 셀프 페르소나와 파트너 페르소나의 두 가지 유형이 있습니다.
- 전자는 대화 에이전트를 나타내는 여러 문장으로 구성된 자기 프로필을 나타냅니다.
- 이러한 페르소나는 무작위로 학습되고 모델 매개변수에 포함된 페르소나에만 의존하는 대신 일관된 응답을 생성할 수 있습니다(Kim et al., 2020).
- 후자는 사용자를 나타내는 프로필을 나타냅니다.
- 이러한 파트너 페르소나를 활용하는 것은 대화 응답 선택에 도움이 되는 것으로 경험적으로 입증되었습니다(Gu et al., 2021).
- 불행히도 파트너 페르소나의 존재는 대화 시작 시 콜드 스타트로 어려움을 겪습니다.
- 전부는 아니지만 대부분의 작품은 파트너 페르소나를 간과하거나 단순히 파트너 페르소나가 존재하는 비현실적인 상황에 초점을 맞추고 있습니다.
- 대조적으로, 우리의 작업은 추론하는 동안 파트너 페르소나가 누락되었을 때 실제적인 문제를 겪지 않으며, 우리가 제안한 프레임워크는 실제 파트너 페르소나를 조건으로 하는 기준선을 능가합니다.
- 우리가 아는 한, 이것은 다운스트림 대화 응답 생성에서 향상된 성능을 위해 파트너 페르소나 생성을 공식화하려는 첫 번째 시도입니다.
- 우리의 작업은 파트너 페르소나 생성이 자기 페르소나와 대화 컨텍스트를 고려할 때 그럴듯하다는 기본 가설에 의해 동기가 부여됩니다.
- 자동 및 인간 평가 결과는 가설을 뒷받침하고 생성된 페르소나가 실제보다 훨씬 더 흥미롭다는 것을 나타내므로 다운스트림 대화 응답 생성이 향상됩니다.
- 따라서 이 문서는 대화 응답 생성(DRG)을 위해 파트너 페르소나 생성(PPG)을 활용하는 방법을 제시합니다.
- 우리는 페르소나 생성기, 대화 응답 생성기 및 비평가 네트워크라는 세 가지 주요 구성 요소로 구성된 새로운 프레임워크를 제안합니다.
- 페르소나 생성기는 대화 응답 생성기가 조건을 지정하는 파트너 페르소나를 생성합니다.
- 우리는 공동 훈련을 위해 생성자에게 보상을 다시 전파하는 critic 네트워크와 함께 강화 학습을 사용합니다.
- 이전 작업에서는 파트너 페르소나 검색을 조사했습니다(Zhang et al., 2018; Song et al., 2019).
- 인간이 구축한 ground truth 페르소나는 이러한 검색 기반 시스템의 상한선 역할을 하며, ground truth가 충분히 일관되고 다양하지 않다고 주장합니다.
- 흥미롭게도, 우리는 프레임워크에서 제안된 생성적 대응물이 관련성 있고 유익하며 일관된 파트너 페르소나를 생성하여 후속 대화 응답 생성을 더욱 향상시키는 것을 관찰합니다.
- 우리의 프레임워크가 검색할 외부 데이터베이스가 필요하지 않다는 또 다른 이점이 있습니다(Madotto et al., 2020; Xu et al., 2021).
- 우리와 가까운 작업 중 하나는 응답 일관성을 개선하기 위해 보조 작업으로 페르소나 재구성을 사용하는 메타 학습을 위한 다중 작업 프레임워크(Lee et al., 2021)입니다.
- 차이점은 그들의 페르소나는 자기 페르소나와 파트너 페르소나를 구별하지 않는 반면 우리는 구별한다는 것입니다.
- 그들의 보고는 성격 일관성에 대한 개선을 나타내고 우리는 전반적인 품질에 대한 개선을 보고합니다.
- 파트너 페르소나를 재구성하여 해당 모델과 실증적 비교를 수행합니다.
- 실험 결과는 이러한 다중 작업 모델이 문제 설정에서 잘 작동하지 않음을 나타냅니다. 아주 최근에 Zhou et al. (2021)은 다중 작업 학습을 통해 다운스트림 응답 생성을 개선하기 위해 페르소나 생성을 Seq2Seq 작업으로 공식화합니다.
- 대조적으로, 우리 작업은 파트너 페르소나 생성기와 응답 생성기를 공동으로 훈련하기 위해 강화 학습을 활용합니다.
- 자동 및 인간 평가 결과는 우리의 프레임워크가 실제 파트너 페르소나보다 더 다양하고 흥미로운 파트너 페르소나를 생성할 수 있으며, 실제 파트너 페르소나를 기준으로 한 기준선보다 더 다양하고 매력적인 응답을 생성할 수 있음을 나타냅니다.
2 Related Work
2.1 Personalized Dialgoue Generation
2.2 User Profile Extraction
2.3 Reinforcement Learning
3 Proposed Framework
- 우리는 파트너 페르소나 생성기, 대화 응답 생성기 및 비평가 네트워크가 있는 강화 학습 구성 요소라는 세 가지 주요 구성 요소로 구성된 새로운 프레임워크를 제안합니다.
- 그림 1은 우리 설정의 추론 흐름을 보여줍니다.
- 자기 페르소나가 있는 입력 대화 컨텍스트는 먼저 파트너 페르소나 생성기에 공급됩니다.
- 생성된 파트너 페르소나 출력은 대화 컨텍스트 및 대화 응답 생성기에 대한 입력으로 자체 페르소나와 연결됩니다.
- 처음에는 지도 학습 하에 파트너 페르소나 생성기와 대화 응답 생성기를 훈련합니다.
- 훈련 단계에서는 정답 파트너 페르소나를 사용하여 대화 응답 생성기를 훈련하고 추론 단계에서 생성된 파트너 페르소나로 교체합니다.
- 지도 학습 단계 이후의 두 번째 단계는 그림 2와 같이 파트너 페르소나 생성기와 대화 응답 생성기를 함께 최적화하여 대화 응답 생성 및 대화 응답 생성과 관련된 보상 신호에 따라 파트너 페르소나 생성기를 훈련시키는 강화 학습 단계입니다.
- 생성된 파트너 페르소나에 대해 훈련된 미세 조정 대화 응답 생성기.
- 특히 생성된 파트너 페르소나와 생성된 대화 응답을 입력으로 수신하고 생성된 페르소나와 응답 간의 관련성을 측정하고 생성자에게 다시 전파하는 보상을 출력하는 전용 설계된 비평가 네트워크를 사용합니다.
3.1 Partner Personas Generation (PPG)
- Seq2Seq 신경망(Sutskever et al., 2014)은 파트너 페르소나 생성(PPG) 작업을 위한 파트너 페르소나 생성기로 채택되었습니다.
- 대화 컨텍스트 c와 자기 페르소나 s의 연결은 파트너 페르소나 생성기에 입력으로 제공됩니다.
- 페르소나 생성기는 다음 가능성을 최대화하는 입력을 조건으로 근사 파트너 페르소나 pˆ를 출력합니다.
- 여기서 T는 생성된 파트너 페르소나의 길이를 나타내고 pˆt는 추론된 위치 t의 단어를 나타냅니다.
- 근데 주어진 persona가 여러 개인데, 각각에 대해 생성학습을 하는건가?
- 즉 같은 s,c에 대해 5개의 페르소나 문장 p1, p2, ... , p5 모두 위 방식대로 학습을 하는것인가?
- 훈련을 위해 ground truth 파트너 페르소나 p가 사용되며 가능성 P(p | s, c)를 최대화하도록 생성기를 훈련합니다.
- 우리는 모든 대화 샘플에 대해 일회성 샷으로 완전한 파트너 페르소나 프로필을 생성합니다.
3.2 Dialogue Response Generation (DRG)
- 우리는 또한 대화 응답 생성(DRG) 작업을 위해 Seq2Seq 신경망을 채택합니다.
- 추론하는 동안 대화 컨텍스트 c, 자기 페르소나 s 및 생성된 파트너 페르소나 pˆ의 연결이 대화 응답 생성기에 입력으로 제공됩니다.
- 그런 다음 응답 생성기는 입력에 대해 조건부 대화 응답 rˆ을 출력하여 조건부 가능성을 최대화합니다. P(rˆ | s, pˆ, c).
- 훈련을 위해 ground truth 파트너 페르소나 p와 ground truth 대화 응답 r이 사용됩니다.
- 즉 학습할 때는, gt parter persona와 gt response을 사용하고, 추론할때는 generated partner persona을 이용해서 response을 생성한다는 것.
3.3 Reinforcement Learning (RL)
- 우리는 생성기에 대한 강화 학습 보상을 계산하기 위해 비평가 네트워크를 사용합니다.
- We use a binary classifier as critic by extracting training instances (s, r, L= 1), (s^A, r^A, L=1) and (s^B, r^B, L= 1).
- 비평가는 테스트 정확도가 약 75%라고 보고합니다. 우리는 경험적으로 p 대신 s를 사용하기로 선택합니다. 후자는 약 60%의 테스트 정확도를 보고합니다. 이것은 사람들이 대화 중에 파트너에 대해 더 드물게 이야기하는 것처럼 보이지만 여전히 그렇게 하고 있으며 파트너 perspnas를 활용하는 것이 유용하다는 것을 나타냅니다.
- Then we can derive two negative samples as: (s^A, r^B, L= 0) and (s^B, r^A, L= 0).
- Thereafter, we fine-tune on a binary classifier to be used as our critic in RL on the training partition by minimizing the binary cross-entropy loss:
- 즉 A-peronsa와 A-response는 positive pair, A-persona와 B-response은 negative pair와 같은 식으로 학습한다는 것.
근데, 이때 무엇을 학습하는 것인가?persona 생성기 PRG? 응답생성기 DRG? -->다음 문장- where the binary label L indicates whether the response is relevant to the personas.
- 그런 다음 생성된 파트너 페르소나 pˆ 및 생성된 응답 rˆ에 따라 Lˆ를 출력하는 비평가 네트워크 역할을 하는 이 분류기를 사용합니다.
- 즉, 이로 학습된 모델은 분류기로써, 이를 이용해서 reward R을 구한다는 것.
- 예측된 이진 레이블 Lˆ은 그런 다음 보상 R로 변환됩니다.
- R은 Lˆ = 1일 때 양의 보상이고, Lˆ = 0일 때 R은 음의 보상입니다.
- We empirically set the reward R for RL to {1, -1} for both PPG and DRG.
- We then update our RL agents with the following gradients:
- 먼저 self-persona와 context을 통해 p^을 생성한다.
- 그리고 reward는 생성된 p^이랑 gt partner response와의 관계를 통해 구해진 것이다.
- 이 reward을 통해 PPG 파라미터들아 학습된다.
- for the partner personas generator (PPG), and for the dialogue response generator (DRG):
- 여기서는 먼저 self-persona와 PPG로 생성된 persona, context으로 partner response을 생성한다.
- 그리고 reward는 생성된 partner response와 gt partner persona와의 분류기를 통해 구진 것. (gt와 비교하는거 맞겠지?)
- 이 reward을 통해 DRG 파라미터들이 학습된다.
- 생성된 파트너 페르소나와 생성된 대화 응답 간의 관련성을 측정하는 보상을 공식화함으로써, 우리는 다음 목표에 의해 동기 부여됩니다.
- 파트너 페르소나 생성기를 추가로 미세 조정하여 다운스트림 대화 응답 생성에 도움이 되는 페르소나를 생성합니다.
- 파트너 페르소나 생성기에 의해 생성된 시끄러운 파트너 페르소나에 적응하기 위해 실제 파트너 페르소나로 훈련된 대화 응답 생성기를 추가로 미세 조정합니다.
- 섹션 3.1에서 언급했듯이 첫 번째 동기는 완전한 페르소나 프로필을 생성하는 것입니다.
- 그러나 그들 중 일부는 다음 차례의 대화 응답 생성에 관련이 없고 도움이 되지 않을 수 있습니다.
- 파트너 페르소나 생성기만으로는 어떤 페르소나가 도움이 될 수 있는지 식별하는 것이 어려울 수 있습니다.
- 따라서 우리는 다운스트림 대화 응답 생성에 더 유용한 페르소나 세트를 생성하는 방법을 배우도록 페르소나 생성기를 훈련시키기 위해 그러한 보상을 설계합니다.
- 두 번째 동기는 대화 응답 생성기가 생성된 파트너 페르소나에 노출되지 않았기 때문입니다.
- 잠재적인 훈련 추론 불일치를 완화하기 위해 응답 생성기를 미세 조정하고 싶습니다.
- 실험 결과는 우리의 설계가 경험적으로 잘 작동함을 나타냅니다.
- Cai et al.의 이전 작업. (2019a)는 RL 손실 역전파를 위해 비평가 네트워크를 사용했습니다.
- 주요 차이점은 비평가가 적대적인 방식으로 훈련되어(Li et al., 2018) 다른 부정적인 후보자들 사이에서 황금 응답을 선택한다는 것입니다.
- 또한 비평가 네트워크는 생성된 골격이 아닌 대화 응답에만 조건을 지정합니다.
- 대조적으로, 생성된 페르소나와 생성된 응답 모두에 대한 분류기 조건화를 사용하여 개선된 응답 생성을 목표로 합니다.
3.4 Evaluation Metrics
- PPG와 DRG 모두에 대해 PPL(Perplexity)은 ground truth output으로 고유 성능을 측정하는 것으로 보고되었습니다(Roller et al., 2021).
- 우리는 외부 평가로 ROUGE-L에 대해 잘 알려진 시퀀스 평가 메트릭 가중 BLEU 및 Fmeasure를 채택합니다.
- PPG의 경우 생성된 총 unigrams/bigrams 수에 대한 distinct unigrams/bigrams의 비율로 응답 다양성을 측정하기 위해 N={1,2}인 Distinct-N도 보고합니다.
6 Conclusion
- 우리의 새로운 프레임워크는 파트너 페르소나 생성을 대화 응답 생성에 통합합니다.
- 초기 대화 시 콜드 스타트 문제뿐만 아니라 실제 애플리케이션에서 파트너 페르소나를 사용할 수 없는 문제를 효과적으로 완화합니다.
- 자동 평가와 사람 평가를 모두 사용한 실험 결과는 우리의 프레임워크가 실제 파트너 페르소나와 비교하여 일관성 있고 다양하며 흥미롭고 매력적인 파트너 페르소나를 생성한다는 것을 보여줍니다.
- 우리는 생성된 페르소나를 조건화하여 응답 생성을 높이는 전용 설계된 비평가 네트워크와 함께 강화 학습을 사용합니다.
- 자동 및 사람의 평가 결과에 따르면 응답 생성기는 실제 파트너 페르소나를 조건으로 하는 경쟁 기준선을 능가합니다.
- 광범위한 사례 연구는 우리의 프레임워크가 만족스러운 대화 응답과 파트너 페르소나를 생성할 수 있음을 보여줍니다.
Reference
댓글
댓글 쓰기