NL-143, Meet Your Favorite Character: Open-domain Chatbot Mimicking Fictional Characters with only a Few Utterances, NAACL 2022

◼ Comment

  • 이 논문은, 가상의 캐릭터의 말투를 모방하는 대화를 응답하는 연구를 한 것이다.
  • 즉 context x가 있고 캐릭터를 표현해주는 ui들이 있을 때, 그 다음의 적당한 응답을 생성하는 것이다.
  • 기존의 유사한 연구로 persona chat과 같은 경우는 persona 발화들을 앞에 concat해서 생성하는 식이다.
    • 여기서는 ui을 단순히 앞에 concat하지 않고, pseudo dialog식으로 concat한다.
    • 즉 대화형식의 prompt을 만들어서 붙이는 것이다.
    • 그림 1과 같이, 각 ui에 대해 적당한 이전 발화를 선택해서 이를 대화형식으로 붙인다.
  • 즉 적당한 이전 발화는 retirever을 이용해서 추출한다.
    • retriever은 BST라는 single-turn 대화 데이터세트로 학습된다고 한다.
    • 또한 이전발화를 고를 때, ui하고만 비교할거냐, ui+x와 비교할거냐에 따라 static or dynamic 방법으로 나눠서 부른다.
    • 두 방법은 trade-off가 있는데 static이 더 적절한 발화를 생성하는데 좋으나, 스타일 반영에는 dynamic이 더 좋다고 한다.
    • 직관적으로는 이 반대가 되어야 하는게 아닌가?
    • static은 캐릭터 발화 ui만을 기준으로 prompt을 만드는 것이므로..더 스타일 반영을 잘해야할 거 같은데
    • 아니면 dynamic은 context x도 고려해서 prompt을 만드는 것이므로, 적합성이 더 높아야 하는 게 아닐까..? --> 아래의 질문질답
  • 어쨋든, 이렇게 만든 pseudo-context prompt는 context ci라고 부른다.
    • 즉 [ci; x]가 LM으로 들어가서 다음 발화를 생성하낟.
    • LM은 Base-LM이라고 transformer-decoder을 The Pile (Gao 2020)와 추가적인 public web documents 코퍼스로 학습했다고 한다.
    • 추가실험으로 GPT-J, GPT-Neo, GPT2-xl을 pretrained LM으로 사용해서 실험도 했다.
  • 베이스라인들로는 3.3 섹션을 참고하면되고
    • static과 dynamic말고 random 식으로 pseudo dialog prompt만드는 실험도 추가했는데, 생각외로 성능이 높아서 이에 대한 추후 탐구가 필요하다고 한다.
  • 아이디어는 간단하고 시도해볼 수 있는 방법이라고 생각된다.
    • 근데 어쨌든 LM의 능력이 되게 중요해보일 거 같다.
    • LM자체는 따로 학습하는게 아니고 이미 있는것을 쓰는 것이니까..
    • 또한 dialog prompt와 실제 context 사이의 대화가 어찌되었든 부자연스러운 부분이 많을 거 같다. (static 방법은 더 심할 것이고)
    • 또한 실제 멀티턴 대화에서 대답하는 캐릭터를 만든다고 가정하면, dialog prompt을 몇 턴 앞에 붙여야 하는가? 등에 대한 의문이 남는다.
    • 이 실험에서는 HLA-chat이라는 single-turn 대화를 기준으로 한 테스트데이터세트를 사용하기 때문에 굳이 이런 고민은 필요없다.
    • 즉, 실제 서비스에서 사용되려면 좀 더 고민이 필요할 부분이 있을거 같다.
  • 질문질답 (with 저자)
  • 1) LM은 그냥 일반 GPT처럼 학습이 되는 것인지? 즉 dialog prompt라는 것이 앞에있다는 구분하는 능력이 학습에서 생기는 것은 아니죠?
    • 넵 이건 GPT처럼 학습하는게 맞아요. 일반 GPT랑 다른 점은, Pushshift reddit comment 데이터를 학습할때 같이 사용해서 좀 더 Dialog-friendly하게 학습되었어요
  • 2) 실험결과에서는 static이 적절성에 좋고 dynamic이 캐릭터반영에 좋다고 하는데, 직관적으로는 dynamic은 context x을 반영해서 dialog prompt을 만드니까 응답 적절성에 더 좋아야할거 같아서요.
    • 이게 현재 Context를 잘 반영하는게 아니라, 단순히 현재 유저 입력 context와 유사한 pseudo-context에 좀 더 점수를 높여주는 방식이기 때문에 만들어지는 pseudo context pair 자체의 적절성은 떨어지게 되어요. 그래서 input context에 대해 나오는 답변도 적절성이 떨어지게 됩니다.
    • 즉, 이렇게하면 pseudo-context에서, 캐릭터발화와 이전발화 이 두개의 쌍의 적절성 자체가 떨어진다는 것 같다. 그래서 전체적으로 답변 적절성이 떨어지는 문제 발생한다고 이해하면 될듯
  • 3) 그럼 dialog prompt을 현재 턴기준에서 몇 턴 앞에 붙여야하는지 고민이 필요할거 같아서요.
    • 실제 Multiturn demonstration을 할 때는 만든 Dialog prompt에 Context를 적당히 N-turn으로 잘라서 concat해서 사용했고, 이 N은 적당한 숫자로 정했었어요

0 Abstract

  • 이 논문에서, 우리는 매력적인 대화 모델을 설계하기 위해, 유망한 방향으로써 fictional characters을 모방하는 것을 고려한다.
  • 끝으로, 우리는 새로운 실용적인 테스크를 제안한다.
    • 이는 각 fictional character의 몇 가지 발화만으로 그들을 모방한 response을 생성할 수 있게 한다.
  • 게다가, 우리는 Pseudo Dialog Prompting (PDP)이란 새로운 방법을 제안하고, 이는 target character의 utterances을 포함하는 prompts와 함께 largescale LM을 레버리징함으로써 response을 생성하는 방법이다.
  • character의 style을 더 잘 반영하기 위해, PDP는 대화 히스토리로써 캐릭터의 발화를 포함하는 대화 형식의 prompts를 작성합니다.
  • 제안된 task에서는 characters의 발화들만이 사용가능하기 때문에, PDP는 retireval model을 사용한 context candidates의 predefined set으로부터 적절한 pseudo-context 을 가진 각 발화를 매칭한다.
  • 사람과 automatic evaluation을 통하여, 우리는 PDP가 생성한 responses들은 베이스라인 모델들보다 fictional characters의 스타일을 잘 반영함을 보여준다.

1 Introduction

  • How would you feel if you could talk to your favorite character?
  • 최근 몇년동안, 오픈도메인 대화 모델은 large-scale LM의 발전으로 놀라운 프로그레스를 가졌다.
  • 한편, 최근 연구들은 단순한 칫챗을 넘어서 더욱 매력적인 오픈도메인 대화 모델을 만들기위해, real-life 대화에서 요구하는 특성을 반영하는 몇 가지 방향이 제시되어 왔다.
    • style-controlling 대화 모델들은 emotion과 empathy와 같은 target styles속에서 response을 생성한다.
    • Persona기반의 대화모델들은 persona descriptions (e.g., "I have two dogs")을 레버리지함으로써 personalities(성격)을 일관되게 유지하는 response을 생성한다.
  • 이 논문에서는, 우리는 매력적인 대화 모델들을 구축하기위해 유망한 방향으로써 fictional characters을 모방하는 것을 고려한다.
  • fictional characters을 모방하는 대화형 모델들을 구축할 때, 두 가지 주요 챌린지들이 우리가 직접적으로 이전의 디자인된 모델을 적용하여 conditoinal response 생성하는것을 방해한다.
    • (1) persona 기반의 대화모델들로써 몇 가지 descriptions 만으로 fictional characters을 정의하는 것은 어렵다.
      • 게다가, 이는 style-controlling 대화 모델처럼 discrete labels (angry, happy)등으로 characters의 styles을 표현하는 것으로써 충분하지 않다. 
    • (2) 학습할 대화모델을 위한 fictional characters의 대화 데이터가 부족하다.
      • 특히 각각의 새로운 character을 위해 추가적인 데이터가 필요한 것을 고려하면, 이것은 학습을 위해 characters의 대화 데이터를 수동으로 생성하는 것은 비효율적이다.
  • 이 두 가지 문제를 해결하기 위해 우리는 가상 인물의 몇 가지 발화만 사용하여 등장인물을 모방한 응답을 생성할 수 있는 새로운 작업을 제안합니다.
  • 이러한 세팅은 다음 두 개의 이유로인해 정의된다.
    • (1) fictional characters의 발화들은 그들의 발화속에 개인적 특성이나 화자의 스타일이 내재되어 있어서, characters을 모방하는 response을 생성하기위한 유용한 clues을 제공한다.
    • (2) target characters의 몇 개의 utterance만을 모으는 것은 context와 utterance pairs로 구성된 full 대화 데이터를 구성하는것에 비해서 코스트가 효율적인 시나리오다.
      • 이것은 우리가 우리의 방법을 새로운 캐릭터로 쉽게 확장이 가능하게 한다.
  • task을 수행하기 위해, 우리는 Pseudo Dilaog Prompting (PDP)을 소개하고, 이 방법은 몇 개의 target characters의 발화들을 사용해서 prompts을 설계해서 pretrained LM의 파워를 레버리지한다.
    • 우리는 대화 히스토리로써 character의 발화들을 포함하는 대화 형태의 prompt을 디자인하는 것이 character의 스타일을 반영하는 효과적인 방법이라고 주장한다.
    • 즉, 그림에서 prompt 박스부분을 그 위에 있는 specific character & retriever로 만들어낸다는 것 (=뽑는다) 같은데?
    • 그래서 prompt 박스 부분뒤의 발화를 붙인다?
  • 그러나, 제안된 테스크에서 character의 발화들만이 사용가능하기 때문에, 우리는 사전정의된 context candidates로부터 관련된 context을 선택하기위해 retireval model을 사용해서 각 발화를 적절한 pseudo-context와 매칭한다.
  • 인간 및 자동 평가를 통해 PDP가 기존 기준 모델보다 가상 인물의 스타일을 더 잘 반영하는 응답을 생성함을 보여줍니다.

2 Method

  • 우리는 k개의 발화를 {u1, u2, · · · , uk} 가진 arbitrary character을 모방하면서 주어진 context x에 해당하는 response r을 생성하는 대화에이전트를 모델링한다.
    • 여기서 u는 그림에서 "Use the combo .. "와 "Yippie ki ..."을 의미하는 듯
    • context x는 "Okay. What ..."을 의미하는 것 같음
  • character의 발화를 가지는 prompt을 디자인하는 가장 심플한 방법은 PersonaChat에서 Madotto가 한 것처럼, 발화들을 concatenate하는 것이다.
  • 그러나, 우리의 선행실험들에서, 우리는 이러한 방법이 character의 스타일을 반영하지 않는 멍청한 responses을 생성하는 경향이 있음을 관측한다. (Section 4에서 보여줌)
    • 우리는 이러한 prompt의 format이 학습세트에서 (Brown et al., 2020; Wei et al., 2021) 자연스럽게 나타나지 않기 때문에 language model이 utterance을 활용하는데 실패한다고 가정한다.
  • 이러한 이슈를 해결하기위해, 우리는 PDP을 제안하고, 이는 대화 히스토리에 character utterances들이 포함된 prompt format의 대화를 설계한다. (그림1)
    • speaker은 대화내내 일관성있는 스타일을 유지하는 경향이 있기 때문에, 이러한 prompt의 사용은 LM이 character의 발화로부터 스타일을 자연스럽게 반영한 responses을 생성하도록 할 수 있다.
  • character의 발화들만이 오직 주어졌을 때 대화를 설계하기 위해, 우리는 context-utterance pair $(c_i , u_i)$을 얻기 위해 각 utterance $u_i$에 매칭하는 pseudo-context $c_i$을 요구한다.
  • 우리는 pseudo-context $c_i$을 얻기 위해 retriever R을 사용한다.
    • 특히, 우리는 Bi-encoder을 우리의 retriever R로 채택한다.
  • 우리는 먼저, BST 데이터세트에서부터 얻은 고정된 single-turn context candidates C을 정의하고, 이는 현재까지 릴리즈된 가장 큰 open-domain conversation 데이터세트이다.
    • 우리는 R을 사용해서 utterance $u_i$가 주어졌을 때 pseudo-context $c_i$로써 candidate을 선택한다.
  • Bi-encoder은 context c와 response r을 embedding space $e_{ctx}(c)$와 $e_{resp}(r)$로 각각 매핑한다.
    • Bi-encoder은 context c와 response r을 $e_{ctx}(c) \cdot e_{resp}(r)$로 relevance을 나타내도록 학습된다.
    • 즉 Bi-encoder은 BST 데이터 (싱글턴 context-response)으로 먼저 학습을 한다.
      • 그래서 context와 유사한 response을 찾을 수 있도록..
    • 그다음, 캐릭터 특성을 담고 있는 각 ui을 response로 간주하여, BST context 후보들 중 점수가 높은 context을 각각 뽑는다.
    • 그래서 (context-캐릭터특성발화) 이렇게 쌍을 지어, pseudo-context로 설정하는거 같음.
  • 여기에는 pseudo-context $c_i$을 선택하는 여러 방법이 다음과 같이 있다.
  • Static Match
    • Static Match는 retrieval model R을 사용해서 주어진 발화 $u_i$에 일관성있게 선행할 수 있는 pseudo-context $c_i$을 선택한다.
    • $u_i$가 주어지면, R은 각 $c \in C$에 대해서, score $s_{stat}$을 계싼한다.
      • $s_{stat} = e_{ctc}(c) \cdot e_{resp}(u_i)$
      • 즉 임베딩 벡터 두개의 내적으로 점수를 매긴듯
    • 우리는 $u_i$의 pseudo-context $c_i$로써 $c_i = argmax s_{stat}(c; u_i)$을 선택한다.
    • 우리는 오직 utterance $u_i$에 의존해서 pseudo-context $c_i$가 선택되기 때문에 이를 variant static으로 명명한다.
  • Dynamic Match
    • Dynamic Match은 $u_i$외에도 입력 context x와 관련있는 pseudo-context $c_i$을 선택한다.
    • x와 $u_i$가 주어졌을 때, R은  각 $c \in C$에 대해서 $s_{dyn}$을 계산한다.
    • $s_{dyn}(c; x, u_i) = e_{ctx}(c) \cdot e_{ctx}(x) + s_{stat}(c; u_i)$
    • 우리는 pseudo-context $c_i$을 $c_i = \text{argmaxc} s_{dyn}(c; x, u_i)$로 선택한다.
    • LM은 in-context learning을 통해 주어진 prompt의 context-response mapping을 빠르게 적응하므로, 우리는 Dynamic Match에서와 같이 입력 컨텍스트와 의미적으로 유사한 pseudo-contexts를 제공하는 것이 해당 발화에서 스타일의 반영을 용이하게 한다고 믿습니다.
    • 우리는 이를 variant dynamic이라 부른다. 왜냐하면 pseudo-context ci는 다양한 입력 context x에 의존하기 때문이다.
  • Random Match
    • Random Match은 R을 사용하지않고 context candidates set C로부터 랜덤하게 pseudo-context ci을 선택하는 것이다.
    • 이 variant는 베이스라인으로 사용되어서 pseudo-context ci의 효과를 연구한다.
  • 최종적으로 character의 모든 k pairs $(c_i, u_i)$은 $e_{ctx}(x) · e_{resp}(u_i)$에 의한 오름차순으로 정렬되어서 dialog format의 prompt로 concatenated된다.

3 Experiments

3.1 Evaluation

  • 우리는 HLA-Chat 데이터세트를 적용해서 평가를 위한 character의 세트를 정의한다.
  • HLA-Chat은 다양한 티비 쇼들에서 single-turn 대화들로 구성된 것이다.
  • 우리는 모든 캐릭터 중에서 10명의 캐릭터를 선택하고 데이터 세트의 발화에서 각 캐릭터의 고유한 특성을 가장 잘 드러내는 8개의 발화를 수동으로 선별합니다.
    • 우리는 실제로 새로운 캐릭터가 주어져도 8개 발화를 만들 수 있음을 고려하고, 우리는 경험적으로 LMs가 8개 발화들로부터 유니크한 캐릭터의 특성을 적절히 반영한다는 것을 관측했다.
    • 학습/테스트 데이터 모두 이것을 기반으로 한건가?
    • 모델은 따로 학습하는게 아닌가?
  •  각 방법의 성능을 평가하기 위해, 우리는 두 개의 기준에 집중한다.
    • (1) 모델의 response가 주어진 character의 스타일을 반영하는가?
    • (2) 모델이 주어진 대화 컨텍스트에 일관성있게 응답하는가?
  • 이러한 두 기준을 검사하기 위해, 우리는 고정된 대화 컨텍스트들에 대해 모델을 실행하고 스타일 반영과 대화 일관성을 나타내는 메트릭들을 계산한다.
  • 우리는 dialog contexts을 위해 DailyDialog의 test split의 utternaces을 사용한다.
  • Human Evaluation. 
    • 우리는 human evaluation을 실행해서 생성된 responses의 퀄리티를 평가한다.
    • 먼저, 우리는 뚜렷히 구분되는 stlye이 될 수 있는 5개의 character을 선택한다.
      • 8개 캐릭터를 나타내는 발화에서 5개를 고른건가?
    • 우리는 그다음, 랜덤으로 characeters의 전체 고정된 context로부터 50개 contexts을 랜덤샘플링한다.
      • 전체 대화흐름에서 랜덤으로 50개 컨텍스트를 고른거겠지?
    • Amazon MTurk을 사용해서, 우리는 샘플 컨텍스트들에 대해 human annotations을 수집한다.
    • Human evaluators은 0부터 2 스케일로 점수를 매기도록 요청받는다. (모델이 얼마나 다음과 같이 응답하는지에 대해)
      • (1) 주어진 캐릭터의 스타일을 얼마나 밝혀내는지 (style strength)
      • (2) 얼마나 response가 주어진 대화 컨텍스트에 적절하고 유창한지 (Appropriateness)
    • annotator bias와 inter-annotator variability을 감소시키기 위해 우리는 Bayesian Calibration을 human evaluation score에 적용한다.
  • Automatic Evaluation. 
    • text style transfer에서의 이전연구들과 유사하게, 우리는 HLAChat에서 발화들에 대해 학습된 캐릭터 classifier을 활용해서 생성된 response의 style 강도를 측정한다.
    • 우리는 target character을 예측하는 classifier의 평균 확률로써 StyleProb을 표기한다.
    • 우리는 HLA-Chat이 클랜스 불균형이슈를 가지고 있어서 잘안나오는 클래스들에 대한 성능이 accuracy로 측정되기 어렵기 때문에 Style Accuracy 대신에 StyleProb을 사용한다.
    • 일관성을 측정하기 위해 응답 일관성에 대한 인간의 판단을 포착하는 것으로 알려진 자동화된 대화 평가 메트릭인 MaUdE(Sinha et al., 2020)를 사용합니다.

3.2 Pre-trained Language Model

  • 모든 방법들에 대해서, 우리는 decoder-only transformer (3.8B 파라미터들)을 사용하고, 이를 Base-LM으로 표기한다.
  • Base-LM이 일반적인 language skills을 욕하고, 대화를 더 잘 이해하게 만들기 위해, 우리는 Base-LM을 The Pile (Gao 2020)와 추가적인 public web documents 코퍼스에대해 학습시킨다.
    • 이미 오픈된 pre-trained LM을 사용했을 때에는 뒤에 추가적인 실험을 하긴함

3.3 Baseline Methods

  • Only Utterances. 
    • 우리의 방법으로써 제안된 pseudo-context을 활용하는 대신에, 우리는 character utterance 셋으로 prompt안에 "quotes of character during conversation"을 (대화중에 캐릭터를 인용) 제공한다.
    • 이 방법의 PDP은 pseudo-contexts의 효과를 검증한다.
    • "quotes of character during conversation "|캐릭터문장1|"quotes of character during conversatoin"|캐릭터문장2 이런식?
  • Zero-shot Prompting. 
    • 이러한 방법에서, 우리는 character의 utterances을 사용하지않고 prompt안에 오직 character의 이름과 show(대화를한 쇼의 이름?)만을 포함한다.
    • prompt의 format은 controlled generation을 위한 Madotto (2021)의 prompt와 유사하다.
    • 캐릭터이름, show|캐릭터문장1|... 이런식?
  • TextSETTR (Riley et al., 2021). 
    • 먼저 Zero-shot Prompting과 유사한 대화 프롬프트를 구성하고(character 정보는 없음) 이를 Base-LM과 함께 사용하여 일반 응답을 생성합니다.
    • 그런 다음 추가 훈련 없이 임의의 스타일을 전송할 수 있는 몇 번의 텍스트 스타일 전송 모델인 TextSETTR을 사용하여 일반 응답의 스타일을 대상 캐릭터의 스타일로 전송합니다.
    • 즉, 일단 zero-shot prompting 식으로 문장을 생성하고, style transfer을 하겠다?
  • GCC (Boyd et al., 2020).
    • GCC는 입력 대화 컨텍스트전에 이전의 유저 발화들을 concat함으로써 user의 대화 히스토리를 활용하여 user persona을 컨트롤 하는 방법이다.
    • 그러나 큰 크기의 character-conditioned dialog dataset에 대한 추가 교육이 필요하다는 단점이 있습니다.

3.4 Advantaged Methods

  • 오직 몇 개의 characters의 발화들에 접속이 가능한 베이스라인 방법들과 달리, advantaged 방법들은 또한 추가적인 데이터에 접속이 가능하고, 이는 다른 방법들에 비해 불공정한 장점을 갖게된다.
  • HLA-Chat Full-dataset Fine-tuning. 
    • 우리는 full HLA-chat 데이터세트에 대해 Base-LM을 파인튠한다.
    • 이 방법에서, character information은 캐릭터의 이름과 show의 이름을 컨캣하여 대화 입력 앞부분에 주입한다.
  • Gold Match. 
    • pseudo-context을 사용하는 대신, 이 모델은 HLA-chat 데이터세트에서 태깅된 chracter 예제 발화에 해당하는 실제 contexts을 사용한다.
  • Details for all methods and experiments are further described in Appendix.

4 Results

  • 테이블1은 실험 결과들은 보여준다.
  • 전체적으로, 우리가 제안한 PDP는 human evaluation과 automated metrics에서 베이스라인 방법들보다 더 스타일 반영을 잘함을 입증하고, 심지어 advantaged methods보다 뛰어나다.
  • 특별히, PDP는 Only Utterance와 비교하여 스타일 반영 점수가 의미있게 높다.
    • PDP의 prompt와 Only Utterance 사이의 핵심 차이가 pseudo-contexts의 존재임을 고려했을 때, 이 결과는 대화형 포매팅의 prompt가 character의 스타일을 반영하는데 매우 효과적임을 입증한다. 
  • Static Match는 PDP의 변형들 사이에서 가장 높은 response coherency scores을 보여주지만, 스타일 반영 평가의 관해서는 Dynamic Match보다 다소 나쁘다.
    • 반면에, Dynamic Match는 coherency가 다소 떨어지지만, 스타일 반영 평가에서는 가장 좋은 성능을 보여준다.
  • observation은 우리의 가정인, 입력 context x와 의미론적으로 유사한 pseudo-context ci을 사용하는 것이 캐릭터 발화로부터 style을 활용하는데 효율적인 것을 보여준다.
    • 즉, 캐릭터 특성 발화로만 pseudo-context을 선택하는 것보다, 캐틱터 특성 발화+뒤의 컨텍스트(x)를 결합하여 pseudo-context을 선택하면 스타일 반영을 더 잘한다.
  • 그래서, Static Match와 Dynamic Match을 선택하는 것은 두 퀄리티중 (style, coherency) 무엇이 더 중요한지에 따라 다르다.
  • 마지막으로, 간단한 베이스라인 ablation으로 고려된 Random Match또한 style 반영 평가에 관하여 높은 성능을 보여준다.
  • 이러한 단순한 베이스라인이 높은 성능을 보이는 것은 의외의 결과이므로 후속 연구에서 Random Match 방법을 분석할 계획입니다.
  • Discussion. 
    • Gold Match는 PDP보다 스타일 강함에서 성능이 떨어진다.
    • 우리는 HLA-Chat에서 gold context-response pairs가 우리의 실험에서 적절한 쌍이 아니라고 믿는다.
    • HLA-Chat은 TV shows의 스크립트로부터 시작되었기 때문에, 여기에는 single-turn 대화의 외부에 몇 가지 추가적인 contexts가 있을 수 있다. (즉. character의 백그라운드, 대화 이전에 일어난 이벤트, audio-visual 정보 등)
    • scripts의 이면에 context을 이해하지 않으면, 심지어 gold context-response pairs은 적합하지 않을 수 있다.
    • 그래서, 직접적으로 HLA-Chat에 있는 context-response pairs을 사용하는 Gold Match는 style 강도 혹은 coherency에 후속 response의 퀄리티에 부정적인 영향을 미칠 수 있다.
  • PDP 방법들은 다른 베이스라인들에 비해 response coherency scores가 살짝 낮은 경향을 보여준다.
  • 이 현상에 대한 우리의 추측은 다음과 같다.
    • PDP 방법들로 생성된 Pseudo-dialog paris (ci, ui)은 아마도 incoherency에 대해 어느 정도를 가지고 있고, 이것은 LM을 통해 in-context learning을 통해 coherency에 부정적인 영향을 일으킬 것이다.
    • 1) response coherency score은 Static Match가 input context와 좀 더 유사한 pseudo-context을 찾는 Dynamic Match보다 높다는 사실
    • 2) response coherency score은 Static Match가 랜덤 pseudo-context을 찾는 Random Match보다 높다는 사실
    • 이 두사실은 이를 서포트한다.
    • 즉 context x을 고려해서 pseudo-context ci을 고르거나, 랜덤으로 ci을 고르는 것은 (ci, ui)의 비일관성을 어느정도 가지고 있다.
    • 그렇기 때문에 ui만 고려해서 ci을 골라야, 이러한 비일관성이 어느정도 해결되기 때문에 in-context learning 관점에서 적절한 응답을 선택한다는 것이다?
  • 추가적으로, MaUdE와 같은 automated metrics은 표준 대화 스타일에서 texts와 작동하도록 튜닝된다.
  • 캐릭터 스타일을 (즉, 그림1에서 "Yippie ki-yi-yay!") 강하게 반영한 response들은 다음의 표준 텍스트들을 입력할 때 out-of-domain examples이기 때문에 MaUdE 점수가 불가피하게 감소할 수 있다.
    • 흥미로운 추후 연구는 character styles을 성공적으로 반영하면서 response coherency을 감소시키지 않는 방법을 찾는 것이다.
  • 다른 언어 모델에 PDP의 적용 가능성
    • 우리는 추가적으로 Base-LM대신에 다른 LMs을 레버리지하여 우리의 방법을 더욱 평가하여 우리의 방법이 일반적으로 어떠한 LM에서도 잘 작동함을 확인한다.
    • 우리는 3가지 pre-trained LM, GPT-J 6B와 GPT-Neo 2.7B, GPT2-xl 1.5B인 오픈된 것을 사용한다.
    • 우리의 주요 실험들과 유사하게, 우리는 3가지 LMs에 대해 automatic evaluatoin을 수행한다.
  • The results are shown in Table 3.
  • 결과들의 전체적인 트렌드는 테이블 1의 pretrained LM인 Base-LM의 사용한 결과와 유사하다.
  • 이러한 일반적인 경향은 PDP 방식을 통한 characters 흉내내기가 Base-LM뿐만 아니라 다른 사전 훈련된 언어 모델에서도 일반적으로 사용될 수 있음을 보여줍니다.

5 Conclusion

  • 이 논문에서, 우리는 오직 character의 몇 개의 발화만을 사용해서 fictional character을 모방하는 테스크를 설명한다.
  • 우리는 새로운 방법인, Pseudo Dialog Prompting을 소개하고, 이는 LM의 prompt을 구축해서 retrieval model과 함께 주어진 발화 세트를 사용해서 pseudo dialog을 생성함으로써 이 테스크를 해결한다.
  • 광범위한 실험들은 우리의 방법이 효과적으로 responses을 생성하고, 이는 베이스라인 모델들과 심지어 advantaged models보다 character의 스타일을 반영한다.

Reference

댓글