◼ Comment

이 논문은, 가상의 캐릭터의 말투를 모방하는 대화를 응답하는 연구를 한 것이다.
즉 context x가 있고 캐릭터를 표현해주는 ui들이 있을 때, 그 다음의 적당한 응답을 생성하는 것이다.
기존의 유사한 연구로 persona chat과 같은 경우는 persona 발화들을 앞에 concat해서 생성하는 식이다.

여기서는 ui을 단순히 앞에 concat하지 않고, pseudo dialog식으로 concat한다.
즉 대화형식의 prompt을 만들어서 붙이는 것이다.
그림 1과 같이, 각 ui에 대해 적당한 이전 발화를 선택해서 이를 대화형식으로 붙인다.

즉 적당한 이전 발화는 retirever을 이용해서 추출한다.

retriever은 BST라는 single-turn 대화 데이터세트로 학습된다고 한다.
또한 이전발화를 고를 때, ui하고만 비교할거냐, ui+x와 비교할거냐에 따라 static or dynamic 방법으로 나눠서 부른다.
두 방법은 trade-off가 있는데 static이 더 적절한 발화를 생성하는데 좋으나, 스타일 반영에는 dynamic이 더 좋다고 한다.
직관적으로는 이 반대가 되어야 하는게 아닌가?
static은 캐릭터 발화 ui만을 기준으로 prompt을 만드는 것이므로..더 스타일 반영을 잘해야할 거 같은데
아니면 dynamic은 context x도 고려해서 prompt을 만드는 것이므로, 적합성이 더 높아야 하는 게 아닐까..? --> 아래의 질문질답

어쨋든, 이렇게 만든 pseudo-context prompt는 context ci라고 부른다.

즉 [ci; x]가 LM으로 들어가서 다음 발화를 생성하낟.
LM은 Base-LM이라고 transformer-decoder을 The Pile (Gao 2020)와 추가적인 public web documents 코퍼스로 학습했다고 한다.
추가실험으로 GPT-J, GPT-Neo, GPT2-xl을 pretrained LM으로 사용해서 실험도 했다.

베이스라인들로는 3.3 섹션을 참고하면되고

static과 dynamic말고 random 식으로 pseudo dialog prompt만드는 실험도 추가했는데, 생각외로 성능이 높아서 이에 대한 추후 탐구가 필요하다고 한다.

아이디어는 간단하고 시도해볼 수 있는 방법이라고 생각된다.

근데 어쨌든 LM의 능력이 되게 중요해보일 거 같다.
LM자체는 따로 학습하는게 아니고 이미 있는것을 쓰는 것이니까..
또한 dialog prompt와 실제 context 사이의 대화가 어찌되었든 부자연스러운 부분이 많을 거 같다. (static 방법은 더 심할 것이고)
또한 실제 멀티턴 대화에서 대답하는 캐릭터를 만든다고 가정하면, dialog prompt을 몇 턴 앞에 붙여야 하는가? 등에 대한 의문이 남는다.
이 실험에서는 HLA-chat이라는 single-turn 대화를 기준으로 한 테스트데이터세트를 사용하기 때문에 굳이 이런 고민은 필요없다.
즉, 실제 서비스에서 사용되려면 좀 더 고민이 필요할 부분이 있을거 같다.

질문질답 (with 저자)
1) LM은 그냥 일반 GPT처럼 학습이 되는 것인지? 즉 dialog prompt라는 것이 앞에있다는 구분하는 능력이 학습에서 생기는 것은 아니죠?

넵 이건 GPT처럼 학습하는게 맞아요. 일반 GPT랑 다른 점은, Pushshift reddit comment 데이터를 학습할때 같이 사용해서 좀 더 Dialog-friendly하게 학습되었어요

2) 실험결과에서는 static이 적절성에 좋고 dynamic이 캐릭터반영에 좋다고 하는데, 직관적으로는 dynamic은 context x을 반영해서 dialog prompt을 만드니까 응답 적절성에 더 좋아야할거 같아서요.

이게 현재 Context를 잘 반영하는게 아니라, 단순히 현재 유저 입력 context와 유사한 pseudo-context에 좀 더 점수를 높여주는 방식이기 때문에 만들어지는 pseudo context pair 자체의 적절성은 떨어지게 되어요. 그래서 input context에 대해 나오는 답변도 적절성이 떨어지게 됩니다.
즉, 이렇게하면 pseudo-context에서, 캐릭터발화와 이전발화 이 두개의 쌍의 적절성 자체가 떨어진다는 것 같다. 그래서 전체적으로 답변 적절성이 떨어지는 문제 발생한다고 이해하면 될듯

3) 그럼 dialog prompt을 현재 턴기준에서 몇 턴 앞에 붙여야하는지 고민이 필요할거 같아서요.
- 실제 Multiturn demonstration을 할 때는 만든 Dialog prompt에 Context를 적당히 N-turn으로 잘라서 concat해서 사용했고, 이 N은 적당한 숫자로 정했었어요

0 Abstract

이 논문에서, 우리는 매력적인 대화 모델을 설계하기 위해, 유망한 방향으로써 fictional characters을 모방하는 것을 고려한다.
끝으로, 우리는 새로운 실용적인 테스크를 제안한다.

이는 각 fictional character의 몇 가지 발화만으로 그들을 모방한 response을 생성할 수 있게 한다.

게다가, 우리는 Pseudo Dialog Prompting (PDP)이란 새로운 방법을 제안하고, 이는 target character의 utterances을 포함하는 prompts와 함께 largescale LM을 레버리징함으로써 response을 생성하는 방법이다.
character의 style을 더 잘 반영하기 위해, PDP는 대화 히스토리로써 캐릭터의 발화를 포함하는 대화 형식의 prompts를 작성합니다.
제안된 task에서는 characters의 발화들만이 사용가능하기 때문에, PDP는 retireval model을 사용한 context candidates의 predefined set으로부터 적절한 pseudo-context 을 가진 각 발화를 매칭한다.
사람과 automatic evaluation을 통하여, 우리는 PDP가 생성한 responses들은 베이스라인 모델들보다 fictional characters의 스타일을 잘 반영함을 보여준다.

1 Introduction

How would you feel if you could talk to your favorite character?
최근 몇년동안, 오픈도메인 대화 모델은 large-scale LM의 발전으로 놀라운 프로그레스를 가졌다.
한편, 최근 연구들은 단순한 칫챗을 넘어서 더욱 매력적인 오픈도메인 대화 모델을 만들기위해, real-life 대화에서 요구하는 특성을 반영하는 몇 가지 방향이 제시되어 왔다.

style-controlling 대화 모델들은 emotion과 empathy와 같은 target styles속에서 response을 생성한다.
Persona기반의 대화모델들은 persona descriptions (e.g., "I have two dogs")을 레버리지함으로써 personalities(성격)을 일관되게 유지하는 response을 생성한다.

이 논문에서는, 우리는 매력적인 대화 모델들을 구축하기위해 유망한 방향으로써 fictional characters을 모방하는 것을 고려한다.
fictional characters을 모방하는 대화형 모델들을 구축할 때, 두 가지 주요 챌린지들이 우리가 직접적으로 이전의 디자인된 모델을 적용하여 conditoinal response 생성하는것을 방해한다.

(1) persona 기반의 대화모델들로써 몇 가지 descriptions 만으로 fictional characters을 정의하는 것은 어렵다.

게다가, 이는 style-controlling 대화 모델처럼 discrete labels (angry, happy)등으로 characters의 styles을 표현하는 것으로써 충분하지 않다.

(2) 학습할 대화모델을 위한 fictional characters의 대화 데이터가 부족하다.

특히 각각의 새로운 character을 위해 추가적인 데이터가 필요한 것을 고려하면, 이것은 학습을 위해 characters의 대화 데이터를 수동으로 생성하는 것은 비효율적이다.

이 두 가지 문제를 해결하기 위해 우리는 가상 인물의 몇 가지 발화만 사용하여 등장인물을 모방한 응답을 생성할 수 있는 새로운 작업을 제안합니다.
이러한 세팅은 다음 두 개의 이유로인해 정의된다.

(1) fictional characters의 발화들은 그들의 발화속에 개인적 특성이나 화자의 스타일이 내재되어 있어서, characters을 모방하는 response을 생성하기위한 유용한 clues을 제공한다.
(2) target characters의 몇 개의 utterance만을 모으는 것은 context와 utterance pairs로 구성된 full 대화 데이터를 구성하는것에 비해서 코스트가 효율적인 시나리오다.

이것은 우리가 우리의 방법을 새로운 캐릭터로 쉽게 확장이 가능하게 한다.

task을 수행하기 위해, 우리는 Pseudo Dilaog Prompting (PDP)을 소개하고, 이 방법은 몇 개의 target characters의 발화들을 사용해서 prompts을 설계해서 pretrained LM의 파워를 레버리지한다.

우리는 대화 히스토리로써 character의 발화들을 포함하는 대화 형태의 prompt을 디자인하는 것이 character의 스타일을 반영하는 효과적인 방법이라고 주장한다.
즉, 그림에서 prompt 박스부분을 그 위에 있는 specific character & retriever로 만들어낸다는 것 (=뽑는다) 같은데?
그래서 prompt 박스 부분뒤의 발화를 붙인다?

그러나, 제안된 테스크에서 character의 발화들만이 사용가능하기 때문에, 우리는 사전정의된 context candidates로부터 관련된 context을 선택하기위해 retireval model을 사용해서 각 발화를 적절한 pseudo-context와 매칭한다.
인간 및 자동 평가를 통해 PDP가 기존 기준 모델보다 가상 인물의 스타일을 더 잘 반영하는 응답을 생성함을 보여줍니다.

2 Method

우리는 k개의 발화를 {u1, u2, · · · , uk} 가진 arbitrary character을 모방하면서 주어진 context x에 해당하는 response r을 생성하는 대화에이전트를 모델링한다.

여기서 u는 그림에서 "Use the combo .. "와 "Yippie ki ..."을 의미하는 듯
context x는 "Okay. What ..."을 의미하는 것 같음

character의 발화를 가지는 prompt을 디자인하는 가장 심플한 방법은 PersonaChat에서 Madotto가 한 것처럼, 발화들을 concatenate하는 것이다.
그러나, 우리의 선행실험들에서, 우리는 이러한 방법이 character의 스타일을 반영하지 않는 멍청한 responses을 생성하는 경향이 있음을 관측한다. (Section 4에서 보여줌)

우리는 이러한 prompt의 format이 학습세트에서 (Brown et al., 2020; Wei et al., 2021) 자연스럽게 나타나지 않기 때문에 language model이 utterance을 활용하는데 실패한다고 가정한다.

이러한 이슈를 해결하기위해, 우리는 PDP을 제안하고, 이는 대화 히스토리에 character utterances들이 포함된 prompt format의 대화를 설계한다. (그림1)

speaker은 대화내내 일관성있는 스타일을 유지하는 경향이 있기 때문에, 이러한 prompt의 사용은 LM이 character의 발화로부터 스타일을 자연스럽게 반영한 responses을 생성하도록 할 수 있다.

character의 발화들만이 오직 주어졌을 때 대화를 설계하기 위해, 우리는 context-utterance pair $(c_i , u_i)$을 얻기 위해 각 utterance $u_i$에 매칭하는 pseudo-context $c_i$을 요구한다.
우리는 pseudo-context $c_i$을 얻기 위해 retriever R을 사용한다.

특히, 우리는 Bi-encoder을 우리의 retriever R로 채택한다.

우리는 먼저, BST 데이터세트에서부터 얻은 고정된 single-turn context candidates C을 정의하고, 이는 현재까지 릴리즈된 가장 큰 open-domain conversation 데이터세트이다.

우리는 R을 사용해서 utterance $u_i$가 주어졌을 때 pseudo-context $c_i$로써 candidate을 선택한다.

Bi-encoder은 context c와 response r을 embedding space $e_{ctx}(c)$와 $e_{resp}(r)$로 각각 매핑한다.

Bi-encoder은 context c와 response r을 $e_{ctx}(c) \cdot e_{resp}(r)$로 relevance을 나타내도록 학습된다.
즉 Bi-encoder은 BST 데이터 (싱글턴 context-response)으로 먼저 학습을 한다.

그래서 context와 유사한 response을 찾을 수 있도록..

그다음, 캐릭터 특성을 담고 있는 각 ui을 response로 간주하여, BST context 후보들 중 점수가 높은 context을 각각 뽑는다.
그래서 (context-캐릭터특성발화) 이렇게 쌍을 지어, pseudo-context로 설정하는거 같음.

여기에는 pseudo-context $c_i$을 선택하는 여러 방법이 다음과 같이 있다.
Static Match

Static Match는 retrieval model R을 사용해서 주어진 발화 $u_i$에 일관성있게 선행할 수 있는 pseudo-context $c_i$을 선택한다.
$u_i$가 주어지면, R은 각 $c \in C$에 대해서, score $s_{stat}$을 계싼한다.

$s_{stat} = e_{ctc}(c) \cdot e_{resp}(u_i)$
즉 임베딩 벡터 두개의 내적으로 점수를 매긴듯

우리는 $u_i$의 pseudo-context $c_i$로써 $c_i = argmax s_{stat}(c; u_i)$을 선택한다.
우리는 오직 utterance $u_i$에 의존해서 pseudo-context $c_i$가 선택되기 때문에 이를 variant static으로 명명한다.

Dynamic Match

Dynamic Match은 $u_i$외에도 입력 context x와 관련있는 pseudo-context $c_i$을 선택한다.
x와 $u_i$가 주어졌을 때, R은 각 $c \in C$에 대해서 $s_{dyn}$을 계산한다.
$s_{dyn}(c; x, u_i) = e_{ctx}(c) \cdot e_{ctx}(x) + s_{stat}(c; u_i)$
우리는 pseudo-context $c_i$을 $c_i = \text{argmaxc} s_{dyn}(c; x, u_i)$로 선택한다.
LM은 in-context learning을 통해 주어진 prompt의 context-response mapping을 빠르게 적응하므로, 우리는 Dynamic Match에서와 같이 입력 컨텍스트와 의미적으로 유사한 pseudo-contexts를 제공하는 것이 해당 발화에서 스타일의 반영을 용이하게 한다고 믿습니다.
우리는 이를 variant dynamic이라 부른다. 왜냐하면 pseudo-context ci는 다양한 입력 context x에 의존하기 때문이다.

Random Match

Random Match은 R을 사용하지않고 context candidates set C로부터 랜덤하게 pseudo-context ci을 선택하는 것이다.
이 variant는 베이스라인으로 사용되어서 pseudo-context ci의 효과를 연구한다.

최종적으로 character의 모든 k pairs $(c_i, u_i)$은 $e_{ctx}(x) · e_{resp}(u_i)$에 의한 오름차순으로 정렬되어서 dialog format의 prompt로 concatenated된다.

3 Experiments

3.1 Evaluation

우리는 HLA-Chat 데이터세트를 적용해서 평가를 위한 character의 세트를 정의한다.
HLA-Chat은 다양한 티비 쇼들에서 single-turn 대화들로 구성된 것이다.
우리는 모든 캐릭터 중에서 10명의 캐릭터를 선택하고 데이터 세트의 발화에서 각 캐릭터의 고유한 특성을 가장 잘 드러내는 8개의 발화를 수동으로 선별합니다.

우리는 실제로 새로운 캐릭터가 주어져도 8개 발화를 만들 수 있음을 고려하고, 우리는 경험적으로 LMs가 8개 발화들로부터 유니크한 캐릭터의 특성을 적절히 반영한다는 것을 관측했다.
~~학습/테스트 데이터 모두 이것을 기반으로 한건가?~~
모델은 따로 학습하는게 아닌가?

각 방법의 성능을 평가하기 위해, 우리는 두 개의 기준에 집중한다.

(1) 모델의 response가 주어진 character의 스타일을 반영하는가?
(2) 모델이 주어진 대화 컨텍스트에 일관성있게 응답하는가?

이러한 두 기준을 검사하기 위해, 우리는 고정된 대화 컨텍스트들에 대해 모델을 실행하고 스타일 반영과 대화 일관성을 나타내는 메트릭들을 계산한다.
우리는 dialog contexts을 위해 DailyDialog의 test split의 utternaces을 사용한다.
Human Evaluation.

우리는 human evaluation을 실행해서 생성된 responses의 퀄리티를 평가한다.
먼저, 우리는 뚜렷히 구분되는 stlye이 될 수 있는 5개의 character을 선택한다.

8개 캐릭터를 나타내는 발화에서 5개를 고른건가?

우리는 그다음, 랜덤으로 characeters의 전체 고정된 context로부터 50개 contexts을 랜덤샘플링한다.

전체 대화흐름에서 랜덤으로 50개 컨텍스트를 고른거겠지?

Amazon MTurk을 사용해서, 우리는 샘플 컨텍스트들에 대해 human annotations을 수집한다.
Human evaluators은 0부터 2 스케일로 점수를 매기도록 요청받는다. (모델이 얼마나 다음과 같이 응답하는지에 대해)

(1) 주어진 캐릭터의 스타일을 얼마나 밝혀내는지 (style strength)
(2) 얼마나 response가 주어진 대화 컨텍스트에 적절하고 유창한지 (Appropriateness)

annotator bias와 inter-annotator variability을 감소시키기 위해 우리는 Bayesian Calibration을 human evaluation score에 적용한다.

Automatic Evaluation.

text style transfer에서의 이전연구들과 유사하게, 우리는 HLAChat에서 발화들에 대해 학습된 캐릭터 classifier을 활용해서 생성된 response의 style 강도를 측정한다.
우리는 target character을 예측하는 classifier의 평균 확률로써 StyleProb을 표기한다.
우리는 HLA-Chat이 클랜스 불균형이슈를 가지고 있어서 잘안나오는 클래스들에 대한 성능이 accuracy로 측정되기 어렵기 때문에 Style Accuracy 대신에 StyleProb을 사용한다.
일관성을 측정하기 위해 응답 일관성에 대한 인간의 판단을 포착하는 것으로 알려진 자동화된 대화 평가 메트릭인 MaUdE(Sinha et al., 2020)를 사용합니다.

3.2 Pre-trained Language Model

모든 방법들에 대해서, 우리는 decoder-only transformer (3.8B 파라미터들)을 사용하고, 이를 Base-LM으로 표기한다.
Base-LM이 일반적인 language skills을 욕하고, 대화를 더 잘 이해하게 만들기 위해, 우리는 Base-LM을 The Pile (Gao 2020)와 추가적인 public web documents 코퍼스에대해 학습시킨다.

이미 오픈된 pre-trained LM을 사용했을 때에는 뒤에 추가적인 실험을 하긴함

3.3 Baseline Methods

Only Utterances.

우리의 방법으로써 제안된 pseudo-context을 활용하는 대신에, 우리는 character utterance 셋으로 prompt안에 "quotes of character during conversation"을 (대화중에 캐릭터를 인용) 제공한다.
이 방법의 PDP은 pseudo-contexts의 효과를 검증한다.
"quotes of character during conversation "|캐릭터문장1|"quotes of character during conversatoin"|캐릭터문장2 이런식?

Zero-shot Prompting.

이러한 방법에서, 우리는 character의 utterances을 사용하지않고 prompt안에 오직 character의 이름과 show(대화를한 쇼의 이름?)만을 포함한다.
prompt의 format은 controlled generation을 위한 Madotto (2021)의 prompt와 유사하다.
캐릭터이름, show|캐릭터문장1|... 이런식?

TextSETTR (Riley et al., 2021).

먼저 Zero-shot Prompting과 유사한 대화 프롬프트를 구성하고(character 정보는 없음) 이를 Base-LM과 함께 사용하여 일반 응답을 생성합니다.
그런 다음 추가 훈련 없이 임의의 스타일을 전송할 수 있는 몇 번의 텍스트 스타일 전송 모델인 TextSETTR을 사용하여 일반 응답의 스타일을 대상 캐릭터의 스타일로 전송합니다.
즉, 일단 zero-shot prompting 식으로 문장을 생성하고, style transfer을 하겠다?

GCC (Boyd et al., 2020).

GCC는 입력 대화 컨텍스트전에 이전의 유저 발화들을 concat함으로써 user의 대화 히스토리를 활용하여 user persona을 컨트롤 하는 방법이다.
그러나 큰 크기의 character-conditioned dialog dataset에 대한 추가 교육이 필요하다는 단점이 있습니다.

3.4 Advantaged Methods

오직 몇 개의 characters의 발화들에 접속이 가능한 베이스라인 방법들과 달리, advantaged 방법들은 또한 추가적인 데이터에 접속이 가능하고, 이는 다른 방법들에 비해 불공정한 장점을 갖게된다.
HLA-Chat Full-dataset Fine-tuning.

우리는 full HLA-chat 데이터세트에 대해 Base-LM을 파인튠한다.
이 방법에서, character information은 캐릭터의 이름과 show의 이름을 컨캣하여 대화 입력 앞부분에 주입한다.

Gold Match.

pseudo-context을 사용하는 대신, 이 모델은 HLA-chat 데이터세트에서 태깅된 chracter 예제 발화에 해당하는 실제 contexts을 사용한다.

Details for all methods and experiments are further described in Appendix.

4 Results

테이블1은 실험 결과들은 보여준다.
전체적으로, 우리가 제안한 PDP는 human evaluation과 automated metrics에서 베이스라인 방법들보다 더 스타일 반영을 잘함을 입증하고, 심지어 advantaged methods보다 뛰어나다.
특별히, PDP는 Only Utterance와 비교하여 스타일 반영 점수가 의미있게 높다.

PDP의 prompt와 Only Utterance 사이의 핵심 차이가 pseudo-contexts의 존재임을 고려했을 때, 이 결과는 대화형 포매팅의 prompt가 character의 스타일을 반영하는데 매우 효과적임을 입증한다.

Static Match는 PDP의 변형들 사이에서 가장 높은 response coherency scores을 보여주지만, 스타일 반영 평가의 관해서는 Dynamic Match보다 다소 나쁘다.

반면에, Dynamic Match는 coherency가 다소 떨어지지만, 스타일 반영 평가에서는 가장 좋은 성능을 보여준다.

observation은 우리의 가정인, 입력 context x와 의미론적으로 유사한 pseudo-context ci을 사용하는 것이 캐릭터 발화로부터 style을 활용하는데 효율적인 것을 보여준다.

즉, 캐릭터 특성 발화로만 pseudo-context을 선택하는 것보다, 캐틱터 특성 발화+뒤의 컨텍스트(x)를 결합하여 pseudo-context을 선택하면 스타일 반영을 더 잘한다.

그래서, Static Match와 Dynamic Match을 선택하는 것은 두 퀄리티중 (style, coherency) 무엇이 더 중요한지에 따라 다르다.
마지막으로, 간단한 베이스라인 ablation으로 고려된 Random Match또한 style 반영 평가에 관하여 높은 성능을 보여준다.
이러한 단순한 베이스라인이 높은 성능을 보이는 것은 의외의 결과이므로 후속 연구에서 Random Match 방법을 분석할 계획입니다.
Discussion.

Gold Match는 PDP보다 스타일 강함에서 성능이 떨어진다.
우리는 HLA-Chat에서 gold context-response pairs가 우리의 실험에서 적절한 쌍이 아니라고 믿는다.
HLA-Chat은 TV shows의 스크립트로부터 시작되었기 때문에, 여기에는 single-turn 대화의 외부에 몇 가지 추가적인 contexts가 있을 수 있다. (즉. character의 백그라운드, 대화 이전에 일어난 이벤트, audio-visual 정보 등)
scripts의 이면에 context을 이해하지 않으면, 심지어 gold context-response pairs은 적합하지 않을 수 있다.
그래서, 직접적으로 HLA-Chat에 있는 context-response pairs을 사용하는 Gold Match는 style 강도 혹은 coherency에 후속 response의 퀄리티에 부정적인 영향을 미칠 수 있다.

PDP 방법들은 다른 베이스라인들에 비해 response coherency scores가 살짝 낮은 경향을 보여준다.
이 현상에 대한 우리의 추측은 다음과 같다.

PDP 방법들로 생성된 Pseudo-dialog paris (ci, ui)은 아마도 incoherency에 대해 어느 정도를 가지고 있고, 이것은 LM을 통해 in-context learning을 통해 coherency에 부정적인 영향을 일으킬 것이다.
1) response coherency score은 Static Match가 input context와 좀 더 유사한 pseudo-context을 찾는 Dynamic Match보다 높다는 사실
2) response coherency score은 Static Match가 랜덤 pseudo-context을 찾는 Random Match보다 높다는 사실
이 두사실은 이를 서포트한다.
즉 context x을 고려해서 pseudo-context ci을 고르거나, 랜덤으로 ci을 고르는 것은 (ci, ui)의 비일관성을 어느정도 가지고 있다.
그렇기 때문에 ui만 고려해서 ci을 골라야, 이러한 비일관성이 어느정도 해결되기 때문에 in-context learning 관점에서 적절한 응답을 선택한다는 것이다?

추가적으로, MaUdE와 같은 automated metrics은 표준 대화 스타일에서 texts와 작동하도록 튜닝된다.
캐릭터 스타일을 (즉, 그림1에서 "Yippie ki-yi-yay!") 강하게 반영한 response들은 다음의 표준 텍스트들을 입력할 때 out-of-domain examples이기 때문에 MaUdE 점수가 불가피하게 감소할 수 있다.

흥미로운 추후 연구는 character styles을 성공적으로 반영하면서 response coherency을 감소시키지 않는 방법을 찾는 것이다.

다른 언어 모델에 PDP의 적용 가능성

우리는 추가적으로 Base-LM대신에 다른 LMs을 레버리지하여 우리의 방법을 더욱 평가하여 우리의 방법이 일반적으로 어떠한 LM에서도 잘 작동함을 확인한다.
우리는 3가지 pre-trained LM, GPT-J 6B와 GPT-Neo 2.7B, GPT2-xl 1.5B인 오픈된 것을 사용한다.
우리의 주요 실험들과 유사하게, 우리는 3가지 LMs에 대해 automatic evaluatoin을 수행한다.

The results are shown in Table 3.

결과들의 전체적인 트렌드는 테이블 1의 pretrained LM인 Base-LM의 사용한 결과와 유사하다.
이러한 일반적인 경향은 PDP 방식을 통한 characters 흉내내기가 Base-LM뿐만 아니라 다른 사전 훈련된 언어 모델에서도 일반적으로 사용될 수 있음을 보여줍니다.

5 Conclusion

이 논문에서, 우리는 오직 character의 몇 개의 발화만을 사용해서 fictional character을 모방하는 테스크를 설명한다.
우리는 새로운 방법인, Pseudo Dialog Prompting을 소개하고, 이는 LM의 prompt을 구축해서 retrieval model과 함께 주어진 발화 세트를 사용해서 pseudo dialog을 생성함으로써 이 테스크를 해결한다.
광범위한 실험들은 우리의 방법이 효과적으로 responses을 생성하고, 이는 베이스라인 모델들과 심지어 advantaged models보다 character의 스타일을 반영한다.

Reference

https://openreview.net/pdf?id=BEl47nQfS-9

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-143, Meet Your Favorite Character: Open-domain Chatbot Mimicking Fictional Characters with only a Few Utterances, NAACL 2022

◼ Comment

0 Abstract

1 Introduction

2 Method

3 Experiments

3.1 Evaluation

3.2 Pre-trained Language Model

3.3 Baseline Methods

3.4 Advantaged Methods

4 Results

5 Conclusion

댓글

댓글 쓰기