NL-075, DialoGPT: Large-Scale Generative Pre-training for Conversational Response Generation (2020-ACL system demonstration)

■ Comment

  • 이 논문에서 제시한 DialoGPT은 하나의 pre-trained model로 대화 데이터로 학습한 것이다. 
    • 단 DialoGPT은 open-domain 대화 모델이다.
  • 즉 GPT처럼 어떤 대화 시스템을 만들 때, 이것으로 pre-trained model을 사용하는게 일반 GPT을 사용하는 것보다 효과적일 것 같다.
  • 모델 구조는 GPT-2와 똑같다고 보면 된다.
  • 데이터는 Reddit에서 크롤링하여 수집하는데, 이 데이터를 필터링하는데 꽤 많은 노력을 들인 것 같다. 간단히 보면
    • URL 제거 
    • 3번이상의 중복되는 단어를 포함하는 데이터 제거
    • 문장에 a, the, of 등의 빈번한 단어가 별로 없으면 제거
    • special markers가 있으면 제거
    • 200단어 넘어가는 문장 제거
    • 공격적인 언어 (비속어 등) 제거
  • 하지만 저자들은 이러한 필터링에도 불구하고 모델이 비속어를 내뱉을 수도 있고 정치적, 성차별적인 대화를 할 수 있는 위험에 경고한다.
  • 학습에는 일반적인 LM외에도 MMI라는 것을 이용한 강화학습으로 mutual information의 성능을 증가시켰다.
    • MMI에 대해서는 기존의 논문을 좀 읽어봐야할 거 같은데
    • 개념은 self-play 모드로 판단 된다.
    • 또한 논문에서는 자세히는 언급이 안되지만, backward likelihood을 이용한 강화학습을 통하여 bland 답변을 방지하려는 시도를 한다.

0. Abstract

  • 우리는 크고, 튜닝가능한 뉴럴 대화 response 대화 모델 DialoGPT을 제시한다. (dialogue generative pre-trained transformer)
  • 2005-2017에서 Reddit 커멘트에서부터 추출된 것과 같은 147M 대화에서 학습되었다.
  • DialoGPT는 HuggingFace 파이토치 transformer에 확장되었고 single-turn 대화 세팅에서 automatic과 human evaluation 두 관점에서 사람과 같은 성능에 다다른다.
  • DialoGPT가 강력한 베이스라인에 비해 좀 더 relevant, contentful, context-consistent response을 생성함을 활용하는 대화시스템을 보여준다.
  • pre-trained 모델과 학습 파이프라인은 일반적으로 neural response 생성연구와 open-domain 대화 시스템에서 좀 더 똑똑하게 발전이 가능하도록 공개된다.

1 Introduction

  • 우리는 Reddit data로 학습된 대화 response 생성을 위한 튜닝가능하고 많은 word를 가지는 튜닝가능한 뉴럴네트워크 모델 DIALOGPT을 소개한다.
  • 트랜스포머 기반을 사용한 large-scale pre-training의 최근 연구는 많은 경험적 성공을 달성한다.
  • 예시로, OpenAI's GPT2는 많은 데이터로 학습된 transformer 모델로 textual data에서 long-term dependencies을 잡아내고 텍스트가 fluent, lexically diverse, rich in content하도록 생성한다.
  • 이러한 모델들은 textual data가 세분화된 텍스트 데이터를 캡쳐하는 것과 인간이 쓴 real-word을 모방한 것과 비슷한 high-resolution을 가지는 출력을 할 수 있는 능력을 가진다.
  • DIALOGPT은 GPT-2가 대화 뉴럴 response 생성 챌린지를 설명하도록 확장한 것이다.
  • 뉴럴 response 생성은 텍스트 생성의 서브카테고리이며 natural하게 보이도록 텍스트를 생성하는 목적을 공유하고 이것은 프롬포트와 관련있다.
  • 대화 모델링은 그러나 사람 대화에서 뚜렷한 챌린지가 있다.
    • 두 대화자의 경쟁가능한 목표는 본질적으로 가능한 response의 범위가 매우 다양하다.
  • 그래서 이것은 NMT, 텍트스요약, 패러프레이징과 같은 일반적으로 다른 텍스트 생성에 있는 더욱 많은 one-to-many 문제를 야기한다.
    • 원래 문장생성이 one-to-many이긴 한데, 대화는 더욱 심하다는 것?
  • 사람 대화는 또한 일반적으로 좀 더 informal, noisy 하고 텍스트챗의 형식은 종족 informal abbreviations(약어) 혹은 syntactic/lexical errors을 포함한다.
  • 최근 open-domain 뉴럴 response 생성 시스템은 (content 혹은 style inconsistency), (lack of long-term contextual information), blandness으로부터 고통받는다.
  • 이러한 이슈들은 information contenxt 복돋는 구체적인 모델링 전략을 통해 감소시킬 수 있다.
    • GPT-2와 같은 트랜스포머 기반 구조는 multi-layer self-attentive 메커니즘을 사용하여 계산적으로 효율적인 방법으로 full context에서 fully-connencted cross-attention이 가능하고 일반적인 해결책을 탐구하기 위한 자연스러운 선택처럼 보인다.
  • 예를들어, 트랜스포머 모델들은 long-term dependency information이 시간이 흘러도 더 잘 보존되도록해서 content consistency을 향상시킨다.
  • 그들은 또한 그들의 깊은 구조(up to 48 layers in GPT-2) 때문에 높은 모델 능력을 가지고 RNN 기반 접근법보다 매우 큰 스케일의 데이터세트를(more than 100 million training instances) 활용해서 좀 더 효율적이다.
  • GPT-2와 같이 DIALOGPT은 autoregressive (AR) language model 형식이고 multi-layer transformer의 모델 구조를 가진다.
  • GPT-2와 달리, DIALOGPT 는 Reddit discussion chains에서 추출된 매우 큰 대화 pairs/sessions으로 학습이된다.
  • 우리의 가정은 DIALOGPT이 세밀한 대화 흐름에서 joint distribution of P(target, source)을 캡쳐할 수 있다.
  • 실제로, 우리가 관측한 것은 DIALOGPT으로 생성된 문장은 다양하고 source에 구체적인 정보를 포함하고 GPT-2가 연속적인 text을 생성하는 것과 유사하다.
  • 우리는 public benchmark dataset (DSTC-7)에서부터 학습된 pre-trained model와 Reddit posting에서 추출한 새로운 6k multi-reference 테스트 데이터세트로 평가한다.
  • DIALOGPT은 automatic과 human evaluation에서 SoTA을 달성하고 사람의 반응 퀄리티와 유사한 성능으로 끌어올린다.
  • 우리는 미래 연구가 가능하도록 pre-trained model와 source code을 공개한다.
    • 우리의 모델은 적은 데이터를 가지는 새로운 대화 데이터세트에 적용하도록 활용되기 쉽다.
    • DIALOGPT 패키지는 또한 open-source training 파이프라인을(data extraction/preparation and model training/evaluation) huggingface pytorch transformer에서 구축되었다.

2 Dataset

  • 데이터세트는 2005~2017년 사이에 Reddit에서 스크립한 코멘트에서 추출된다.
  • 하나의 thread에 응답하는 thread가 그다음의 threads들의 root node을 형성하기 때문에, Reddit discussions은 자연스럽게 tree-structured 응답 체인으로 확장될 수 있고 
  • 우리는 root node에서부터 leaf node까지의 각 path를 여러 개의 대화 턴을 포함하는 training instacne으로 추출한다.
  • 우리는 다음의 조건을 만족하는 instances들에서 데이터를 삭제하는 필터링을 한다.
    • (1) there is a URL in source or target,
    • (2) where the target contains word repetitions of at least three words,
    • (3) where the response does not contain at least one of the top-50 most frequent English words (e.g., “the”, “of”, “a”), since this probably indicates it might not be an English sentence,
    • (4) where the response contains special markers such as “[” or “]”, as this could be markup language,
    • (5) where source and target sequences together are longer than 200 words,
    • (6) where the target contains offensive language, identified by phrase matching against a large blocklist. 
  • 우리는 또한 공격적인 content을 할 것으로 식별되는 많은 수의 subreddits을 제외하였다.
  • 추가적으로, 우리는 blandness한 것을 공격적으로 제거했다.
    • 예) 1000번넘는 것을 본적있는 tri-grams들의 90% response의 instances을 제거
  • 종종 비유익한 responses들은 데이터의 1%을 차지한다.
  • 필터링 이후에, 데이터세트는 147,116,725 대화 instances으로 구성되고 최종 1.8 billion(억) 단어들을 가진다.

3 Method

3.1 Model Architecture

  • 우리는 DIALOGPT 모델을 GPT-2을 기초로 학습하였다.
  • GPT-2 트랜스포머 모델은 일반적인 transformer language model로 masked multi-head self-attention layers의 stack을 활용하여 매우 큰 web-text 데이터로 학습한 것이다.
  • user-specific 프롬프트을 기반 혹은 (처음)scratch부터의 생성된 텍스트는 realistic하게 보인다.
  • GPT-2의 성공은 transformer LM이 미세한 레벨에서의 사람의 언어 데이터 분포를 특정지을 수 있음을 증명하고 이는 아마도 매우 큰 모델 능력과 뛰어난 효율성 때문일 것이다.
  • 우리의 모델은 GPT-2을 상속받는다
    • GPT-2는 12-48 layer 트랜스포머 구조이고 layer normalization을 가진다.
    • 초기화는 우리가 수정한 모델의 깊이와 byte pair encodings tokenizer을 설명한다.
  • 우리는 OpenAI GPT-2로 긴 텍스트으로 multiturn 대화 세션을 모델링하고 LM을 생성 테스크로 구성한다.
  • 우리는 첫번째로 대화세션 안에서 모든 대화 turns을 concat시켜 긴 text  (N은 시퀀스 길이)을 만들고 끝에는 end-of-text token을 넣는다.
    • 대화 전체의 끝에만 END 토큰을 넣고 문장의 끝마다 END 토큰은 안넣는 거겠지?
  • 우리는 source sentence (대화 히스토리)을 으로 표기하고 target sentence (ground truth response)을 으로 표기한다.
  • 조건부 확률 은 조건부 확률의 일련의 곱으로 다음과 같이 쓰여진다.
  • multi-turn 대화 세션 은 다음과 같이 쓰여진다.
    • (1) 은 본질적으로 조건부 확률 의 곱이다.
    • 즉 전체 멀티 턴의 확률은 각 turn에서 이전 대화 turn으로 현재 turn을 예측하는 확률들의 곱
    • 결과적으로, single objective 을 optimizing 하는 것은 모든 source-target 쌍을 optimizing으로 간주된다.
  •  Our implementation is based on the opensource PyTorch-transformer repository.

3.2 Mutual Information Maximization

  • open-domain 텍스트 생성 모델들은 bland하고 uninformative samples 생성하는 것으로 악명이 높다.
  • 이 문제를 설명하기 위해, 우리는 maximum mutual information (MMI) scoring function을 실행한다. (Li et al., 2016a; Zhang et al., 2018)
  • MMI는 pre-trained backword model로 주어진 response으로부터 source sentences을 예측하도록 적용한다. (즉 P(source|target))
  • 우리는 우선 top-K 샘플링을 사용하여 hypotheses의 셋을 생성한다.
  • 그리고나서, 우리는 P(Source|Hypothesis)의 확률로 모든 hypotheses을 rerank한다.
  • 직관적으로, backward 모델이 likelihood을 최대화하면, 빈번하고 반복적인 hypotheses들이 많은 가능한 queries와 연관될 수 있기 때문에, bland hypothese을 처벌할 수 있으며, 따라서 특정 query에 대한 낮은 확률을 산출할 수 있다.
  • 내 생각에는 이런말인듯)
    • source 문장들이 쭉 주어진다.
    • source들을 예측하는 많은 hypotheses중에 가장 확률을 뽑아내는 hypotheses는 bland하다는 것이다.
    • 왜냐하면 이러한 hypotheses는 빈번하고 반복적으로 나온다는 것이므로 bland 하다는 것이다.
    • 여기서 hypotheses는 top-K로 샘플링한다는데 이 부분은 잘 모르겠... → 4.4에 설명이 좀 되어있는 듯
  • 우리는 또한 reward R을 최대화하는 시도를 한다.
    • P(Source|Hypothesis)는 sample-averaged baseline을 가지는 policy gradient을 사용한다.
    • 이 논문에서, 이 부분을 자세히 설명을 안해주지만, P(Source|Hypothesis)가 reward의 개념으로 사용되서 학습이 되는 듯하다.
    • 즉, hypothesis 입장에서 이상한 source가 안뽑히도록 backward likelihood을 쓰는 것이다.
    • 일반적으로는 forward likelihood을 사용하나, 이러면 위에서 말하듯 bland 답변의 문제가 발생한다는 것이다.
  • 가능한 reward는 안정적으로 개선될 수 있으나 RNN을 학습하는 것과 달리, 우리는 RL 학습이 쉽게 local-optimal solution을 악화하도록 수렴하는 것을 알게됐다.
    • 이러한 local-optimal solution은 hypothesis는 간단히 source sentence을 반복하고 mutual information이 최대화 된다.
  • 우리는 transformers가 그들의 강력한 모델 representation 파워때문에 local optima에 빠진다고 추측하였다.
  • 우리는 미래에 regularized RL의 조사를 남겨둔다.

4 Result 

4.1 Experimental Details

  • Table 1처럼 우리는 모델의 다른 사이즈 3개를 학습했다. 
    • 파라미터: 117M, 345M and 762M
  • 우리의 모델은 vocab을 50257를 사용하고 16 Nvidia V100 으로 학습되었다.
  • 우리는 Noam learning rate 스케쥴러 16000 warm-up steps을 사용했다.
  • learning rate는 validation loss을 기반으로 선택되었다.
  • 각각의 모델은 validation loss에 발전이 없을 때까지 학습이 된다.
  • small과 medium 모델에서는, 우리는 5 epochs을 학습하였고 larget 모델에서는 3 epochs을 학습하였다.
  • Speeding up training
    • GPU 메모리 한계를 수용하고 학습을 가속화하기 위해, 우리는 먼저 모든 학습 데이터를 lazy-loading database file에 압축시켜서 데이터가 필요할때 로드될 수 있게 했다. (pre-fetching large chunks to reduce access frequency)
    • 우리는 asynchronous 분리된 데이터 프로세싱을 활용하여 학습 스케을 키운다.
    • 그 결과, 학습 시간은 GPU 숫자에 비례하여 선형적으로 줄어든다.
    • 우리는 더 나아가서, dynamic batching 전략으로 비슷한 길이를 가지는 group conversations을 같은 배치로 적용하였고 이것은 학습 처리량을 늘렸다.

4.2 DSTC-7 Dialogue Generation Challenge 

  • DSTC (Dialog System Technology Challenges) 7 track은 end-to-end 대화 모델링 테스크이고 이것은 external knowledge을 기반으로하는 정보를 주입한 칫챗을 넘어서는 대화 response을 생성하는 것을 목표로 가진다.
  • 이 테스크는 일반적으로 goal-oriented, task-oriented 혹은 task-completion 대화와는 구별되며, 여기에는 사전정의된 목표가 구체적으로 없다. (예. booking a flight, or reserving a table at a restaurant)
  • 대신에, 이것은 정의가 없거나 미리 알려지지 않은 목표의 human-like interactions을 목표로 하고, 업무 및 사람들과 정보를 공유하는 생산적 환경(예: 브레인스토밍 미팅)에서 볼 수 있는 종류의 상호작용을 목표로 한다.
  • DSTC-7 테스트 데이터는 Reddit 데이터로부터 대화 쓰레드를 포함한다.
  • multi-reference 테스트 셋을 만들기 위해서, 우리는 대화 세션이 6개 이상의 responses을 포함하도록 활용했다.
  • turn length와 같은 다른 필터링 조건이 주어졌을 때, 이것은 5-reference 테스트 셋 사이즈 2208을 야기한다.
  • (For each instance, one of the 6 human responses is set aside to assess human performance on this task.) 
  • Note that our training data is collected from a different time span from the test set.
  • 우리는 일반적인 기계번역 metrics을 사용하여 automatic evaluation을 수행한다.
    • BLEU, NIST 등을 퐇마한다.
  • 우리는 또한 Enrtropy와 Dist-n으로 lexical diversity을 평가한다.
    • More details are provided in Galley et al. (2019).
  • 우리는 DIALOGPT을 트위터 데이터로 학습을 기반으로한 비교할만한 seq2seq 모델 PERSONALITYCHAT 과 비교한다.
    • PERSONALITYCHAT은 Cognitive Service for Microsoft Azure 제품에서 사용된 모델이라고 한다.
    • 345M 파라미터를 가지는 DIALOGPT와 beam search으로 가장 높은 automatic score을 달성한다.
  • *여기서부터 번역 (중요한 부분은 아닌거 같아서 귀찮...)
  • 345M 매개변수를 가진 DIALOGPT의 점수는 117M 매개변수보다 전반적으로 더 좋다. 
  • 빔 검색(빔 폭 10 포함)은 BLEU와 DIST 점수를 획기적으로 향상시키고 NIST와 MEASE 점수를 약간 개선한다. 
  • 당사 모델은 소스-대상 쌍에서 미세 조정되며 DSTC 교육 세트의 grounding information를 활용하지 않는다는 점에 유의하십시오. 
  • Presumably, the model learns background information during pre-training and is unhindered by the lack of a grounding document.
  • DIALOGPT의 자동 점수는 인간 점수보다 높다. 
  • This does not mean that the generation is more “realistic” than human, but is probably attributable to the one-to-many nature of conversation
  • 그림 1에 나타낸 것처럼, 다중 인간 반응(R1-R4)은 소스 발음과 잘 일치할 수 있다.
  • 일반성을 상실하지 않는 한, R1-R3이 테스트될 "ground truth" 참조인 반면, R4는 "인간" 점수를 계산하는 "보류된" 인간 반응이라고 가정한다. 
  • 의미공간에서, 잘 훈련된 모델에서 생성된 반응 Rg는 아마도 가장 가능성이 높은 반응을 일으키려고 하기 때문에 가능한 모든 반응의 기하학적 중심에 있는 경향이 있을 것이다. 
  • 이는 모든 훈련 사례의 기하학적 평균에 가까울 수 있으므로 이러한 예들을 "평균화"할 수 있다. 
  • 따라서 생성된 응답 Rg는 R1-R3에서 목표 인간 응답 R4보다 낮은 "대안 거리"(BLEU와 같은 높은 자동 점수로 측정)를 가질 수 있다.

4.3 A New Reddit Multi-reference Dataset

  • 우리는 6K 예제로 DIALOGPT를 다중 비교 테스트 세트에 대해 추가로 평가한다. 
  • 그 결과는 표 3에 나와 있다.
  • 우리는 우리의 방법을 사전 훈련된 모델로 GPT-2를 사용한 처음부터 훈련하는 것과 미세 조정의 두 가지 설정으로 테스트한다. 
  • 두 가지 설정에서 모두 큰 모델이 작은 모델을 일관되게 능가한다. 
  • 사전 훈련된 GPT-2 모델에서 처음부터 미세 조정까지의 훈련을 비교해 보면, 소형 모델에 적용할 때 GPT-2 모델을 사용하면 더 큰 성능 향상을 얻을 수 있다. 
  • 다시 말하지만, 최고의 시스템 DIALOGPT(345M, 빔 검색 포함)는 BLEU에서 사람보다 높은 점수를 받는다. 
  • 처음부터 교육을 받은 대형 모델(345M 및 762M)은 GPT-2에서 마무리된 모델과 비교된다.

4.4 Re-ranking The Response Using MMI

  • We perform mutual information maximization as described in Section 3.2. 
  • 구체적으로는 GPT-2 중형 모델에서 미세 조정된 345M 모델을 사용하여 top-K 샘플링(K = 10)을 사용하여 각 입력 소스 문장에 대해 16개의 샘플을 생성한다. 
    • 즉 GPT-2 medium으로다가 tok-K을 사용하여 16개의 샘플을 만든다는 것을 이용하는 듯
  • 이는 GPT-2 중형 모델에서 마무리된 345M 모델인 후진 모델을 사용하여 다시 순위를 매기는 단계가 뒤따른다. 
  • The response that yields lowest backward model loss is selected for evaluation.
  • 결과는 표 3의 두 번째에서 마지막 행까지 요약되어 있다. 
  • 탐욕스러운 세대들에 비해 MMI 재순위는 NIST, MICE, Entropy, Dist 점수가 높지만 BLEU가 약간 하락하여 더욱 다양한 반응을 만들어 내는 것을 알 수 있다.
  • automatic 결과만 보면, MMI없이 beam만 적용하는게 나아 보이는데..?

4.5 Generation Examples (번역)

  • 표 4(인터랙티브 채팅)와 표 5(사용자 프롬프트가 있는 자가 재생 봇)에서 샘플 생성 대화 상자를 제공한다. 
  • 출력은 상위 K 샘플링에 기반한다.
  • 흥미롭게도, 우리의 모델은 상식적인 질문들을 어느 정도 다룰 수 있는 능력을 보여주는데, 아마도 Reddit 데이터에서 배울 수 있는 풍부한 정보 때문일 것이다. 
  • 어떤 경우에는, "원하는" 대답을 주는 대신, 시스템은 대안적이고 합리적인 대답을 만들어 낸다.
  • 우리의 관찰에 따르면 시스템은 RNN 상대보다 멀티턴 세대를 더 잘 다룰 수 있고 맥락과 관련하여 더 일관적인 경향이 있다(표 5).

4.6 Human Evaluation (번역)

  • 인적 평가 크라우드 소싱을 사용하여 Reddit 6K 테스트 데이터 집합에서 무작위로 샘플링한 2000개의 테스트 소스를 평가했다. 
  • 시스템은 쌍으로 구성되었고 각 시스템 출력 쌍은 3명의 심판에게 무작위로 제시되었다. 
    • 이 3명의 심판이 relevance, informativeness, 그리고 how humanlike the generating이 3-point Likert-like scale을 사용하여 순위를 매긴다.
  • 판사들은 자격시험을 통과하도록 요구되었고, 스팸 탐지 제도가 부과되었다.
  • 관련성, 정보성 및 인간적 유사성에 대한 전반적인 심판 선호도는 표 7과 같다. 
  • PersonalityChat보다 DialoGPT에 대한 강한 선호도를 관찰할 수 있다. 
  • 표 7은 또한 "바닐라" DialoGPT 매체 모델이 이미 인간의 반응 품질에 근접했을 수 있음을 시사한다. 
  • 예상외로, 우리는 많은 진정한 인간의 반응이 불규칙하거나 특이하기 때문에 판사가 인간의 반응보다 MMI 변형을 선호할 수 있다는 것을 발견했다. 
  • (이 효과를 뒷받침하는 조건에 대해서는 섹션 4.2 참조) 
  • 유의성 시험 및 사용된 인적 평가 템플릿을 포함한 자세한 내용은 부록에 수록되어 있다.

5 Related work

  • 볼드체 논문들은 읽어 봐야할 듯... (언제 다 ..)
  • DLGnet (Olabiyi and Mueller, 2019) is a large transformer model trained on dialogue dataset and achieves good performance in multi-turn dialogue generation. 
  • AllenNLP (Gardner et al., 2018) is developed as a toolkit for many natural language processing tasks, including the large-scale pre-trained bi-LSTM sentence representation learning framework ELMo (Peters et al., 2018). 
  • Texar (Hu et al., 2018) focuses on text generation including style transferring and controllable generation. It includes reinforcement learning capabilities along with its sequence modelling tools. 
  • DeepPavlov (Burtsev et al., 2018) is a popular framework focusing on task-oriented dialogue. 
  • This public repository contains several demos and pre-trained models for question answering and sentiment classification. Icecaps (Shiv et al., 2019) is a response generation toolkit with techniques such as grounding on personalities or external knowledge and multi-task training. 
  • The ConvAI2 challenge (Dinan et al., 2019) has a focus on personalized conversations. 
  • ParlAI (Miller et al., 2017) is another library for developing task-oriented dialogue systems. It contains pre-trained models for knowledge-grounded chatbot trained with crowdsourced data. 
  • The Text-to-Text Transformer (Raffel et al., 2019) unifies multiple text modeling tasks, and achieves the state-of-the-art results in various natural language generation and understanding benchmarks. 

6 Limitations and risks

  • DIALOGPT는 모델로만 출시되며 디코더 실행의 책임은 사용자에게 있다. 
    • GPT 발표할 때 오픈하면 위험하다느니.. 그런 맥락인 듯
  • 학습 이전에 공격적인 데이터의 양을 최소화 하는 우리 노력에도 불구하고, DIALOGPT는 공격적인 출력을 내뱉을 잠재력이 있다.
    • 욕설, 비속어 데이터를 필터링 했음에도 혹시나 할 수도 있다.
  • 출력은 데이터에 있는 성별과 다른 역사적인 편견을 반영할 수 있다.
  • 이 모델을 사용하여 생성된 response은 비윤리적이거나 공격적인 제안에 동의하는 표현을 하는 경향이 있을 수 있다. (혹은 그 반대로 윤리적인 것에 비동의 할 수도 있음)
  • 이것은 현재 SoTA로 알려져있는 end-to-end 대화 모델로 자연스럽게 발생한 많은 데이터로 학습되었다.
    • 영어권에서는 GPT가지고 대화 모델을 구성하는 것 외에 이 모델을 백본으로 활용하는 것이 더 좋은 방법이 될 수도?
  • DIALOGPT을 릴리즈한 중요한 동기는 연구자들이 이러한 이슈를 조사하고 문제를 완화하는 전략을 개발하도록 함이다.
  • 어떤 경우에도 DIALOGPT를 사용한 결과로 생성된 부적절한 콘텐츠가 저자나 마이크로소프트 Corporation의 견해나 가치를 반영하도록 해석되어서는 안 된다.
    • 즉 오직 데이터로부터 학습된 것이다...
    • 이런 부분에 심히 걱정하는 것을 하나의 section으로 다룰 만큼 성능이 좋은가?

7 Conclusion

  • 우리는 방대한 real-world Reddit 데이터세트로 학습된 open-domain pre-trained model DIALOGPT을 릴리스했다.
  • 패키지는 distributed training 파이프라인과 여러 개의 pre-trained model로 구성되어있다.
    • pre-trained model은 몇 시간동안 커스터마이징된 적절한 사이즈의 데이터세트에서 대화 모델을 fine-tuned할 수 있다.
  • DIALOGPT은 완전히 오픈 소스이고 쉽게 적용이 가능하여 users들이 pre-trained 대화 시스템으로 확장하여 다양한 데이터세트를 사용하여 학습할 수 있다.
  • building block을 novel application과 방법론으로 간주한다.
  • 나쁜 출력의 detection과 control이 향후 조사의 초점이 될 것이다.
  • 강화학습을 사용하여 생성된 반응의 연관성과 터무니없는 반응을 생성하지 않도록 모델을 발전시켰다.
    • We will investigate leveraging reinforcement learning to further improve the relevance of the generated responses and prevent the model from generating egregious(터무니없는) responses.
Reference

댓글