■ Comment

이 논문에서 제시한 DialoGPT은 하나의 pre-trained model로 대화 데이터로 학습한 것이다.

단 DialoGPT은 open-domain 대화 모델이다.

즉 GPT처럼 어떤 대화 시스템을 만들 때, 이것으로 pre-trained model을 사용하는게 일반 GPT을 사용하는 것보다 효과적일 것 같다.
모델 구조는 GPT-2와 똑같다고 보면 된다.
데이터는 Reddit에서 크롤링하여 수집하는데, 이 데이터를 필터링하는데 꽤 많은 노력을 들인 것 같다. 간단히 보면

URL 제거
3번이상의 중복되는 단어를 포함하는 데이터 제거
문장에 a, the, of 등의 빈번한 단어가 별로 없으면 제거
special markers가 있으면 제거
200단어 넘어가는 문장 제거
공격적인 언어 (비속어 등) 제거

하지만 저자들은 이러한 필터링에도 불구하고 모델이 비속어를 내뱉을 수도 있고 정치적, 성차별적인 대화를 할 수 있는 위험에 경고한다.
학습에는 일반적인 LM외에도 MMI라는 것을 이용한 강화학습으로 mutual information의 성능을 증가시켰다.

MMI에 대해서는 기존의 논문을 좀 읽어봐야할 거 같은데
개념은 self-play 모드로 판단 된다.
또한 논문에서는 자세히는 언급이 안되지만, backward likelihood을 이용한 강화학습을 통하여 bland 답변을 방지하려는 시도를 한다.

0. Abstract

우리는 크고, 튜닝가능한 뉴럴 대화 response 대화 모델 DialoGPT을 제시한다. (dialogue generative pre-trained transformer)
2005-2017에서 Reddit 커멘트에서부터 추출된 것과 같은 147M 대화에서 학습되었다.
DialoGPT는 HuggingFace 파이토치 transformer에 확장되었고 single-turn 대화 세팅에서 automatic과 human evaluation 두 관점에서 사람과 같은 성능에 다다른다.
DialoGPT가 강력한 베이스라인에 비해 좀 더 relevant, contentful, context-consistent response을 생성함을 활용하는 대화시스템을 보여준다.
pre-trained 모델과 학습 파이프라인은 일반적으로 neural response 생성연구와 open-domain 대화 시스템에서 좀 더 똑똑하게 발전이 가능하도록 공개된다.

1 Introduction

우리는 Reddit data로 학습된 대화 response 생성을 위한 튜닝가능하고 많은 word를 가지는 튜닝가능한 뉴럴네트워크 모델 DIALOGPT을 소개한다.
트랜스포머 기반을 사용한 large-scale pre-training의 최근 연구는 많은 경험적 성공을 달성한다.
예시로, OpenAI's GPT2는 많은 데이터로 학습된 transformer 모델로 textual data에서 long-term dependencies을 잡아내고 텍스트가 fluent, lexically diverse, rich in content하도록 생성한다.
이러한 모델들은 textual data가 세분화된 텍스트 데이터를 캡쳐하는 것과 인간이 쓴 real-word을 모방한 것과 비슷한 high-resolution을 가지는 출력을 할 수 있는 능력을 가진다.
DIALOGPT은 GPT-2가 대화 뉴럴 response 생성 챌린지를 설명하도록 확장한 것이다.
뉴럴 response 생성은 텍스트 생성의 서브카테고리이며 natural하게 보이도록 텍스트를 생성하는 목적을 공유하고 이것은 프롬포트와 관련있다.
대화 모델링은 그러나 사람 대화에서 뚜렷한 챌린지가 있다.

두 대화자의 경쟁가능한 목표는 본질적으로 가능한 response의 범위가 매우 다양하다.

그래서 이것은 NMT, 텍트스요약, 패러프레이징과 같은 일반적으로 다른 텍스트 생성에 있는 더욱 많은 one-to-many 문제를 야기한다.

원래 문장생성이 one-to-many이긴 한데, 대화는 더욱 심하다는 것?

사람 대화는 또한 일반적으로 좀 더 informal, noisy 하고 텍스트챗의 형식은 종족 informal abbreviations(약어) 혹은 syntactic/lexical errors을 포함한다.
최근 open-domain 뉴럴 response 생성 시스템은 (content 혹은 style inconsistency), (lack of long-term contextual information), blandness으로부터 고통받는다.
이러한 이슈들은 information contenxt 복돋는 구체적인 모델링 전략을 통해 감소시킬 수 있다.

GPT-2와 같은 트랜스포머 기반 구조는 multi-layer self-attentive 메커니즘을 사용하여 계산적으로 효율적인 방법으로 full context에서 fully-connencted cross-attention이 가능하고 일반적인 해결책을 탐구하기 위한 자연스러운 선택처럼 보인다.

예를들어, 트랜스포머 모델들은 long-term dependency information이 시간이 흘러도 더 잘 보존되도록해서 content consistency을 향상시킨다.
그들은 또한 그들의 깊은 구조(up to 48 layers in GPT-2) 때문에 높은 모델 능력을 가지고 RNN 기반 접근법보다 매우 큰 스케일의 데이터세트를(more than 100 million training instances) 활용해서 좀 더 효율적이다.
GPT-2와 같이 DIALOGPT은 autoregressive (AR) language model 형식이고 multi-layer transformer의 모델 구조를 가진다.
GPT-2와 달리, DIALOGPT 는 Reddit discussion chains에서 추출된 매우 큰 대화 pairs/sessions으로 학습이된다.
우리의 가정은 DIALOGPT이 세밀한 대화 흐름에서 joint distribution of P(target, source)을 캡쳐할 수 있다.
실제로, 우리가 관측한 것은 DIALOGPT으로 생성된 문장은 다양하고 source에 구체적인 정보를 포함하고 GPT-2가 연속적인 text을 생성하는 것과 유사하다.
우리는 public benchmark dataset (DSTC-7)에서부터 학습된 pre-trained model와 Reddit posting에서 추출한 새로운 6k multi-reference 테스트 데이터세트로 평가한다.
DIALOGPT은 automatic과 human evaluation에서 SoTA을 달성하고 사람의 반응 퀄리티와 유사한 성능으로 끌어올린다.
우리는 미래 연구가 가능하도록 pre-trained model와 source code을 공개한다.

우리의 모델은 적은 데이터를 가지는 새로운 대화 데이터세트에 적용하도록 활용되기 쉽다.
DIALOGPT 패키지는 또한 open-source training 파이프라인을(data extraction/preparation and model training/evaluation) huggingface pytorch transformer에서 구축되었다.

2 Dataset

데이터세트는 2005~2017년 사이에 Reddit에서 스크립한 코멘트에서 추출된다.
하나의 thread에 응답하는 thread가 그다음의 threads들의 root node을 형성하기 때문에, Reddit discussions은 자연스럽게 tree-structured 응답 체인으로 확장될 수 있고
우리는 root node에서부터 leaf node까지의 각 path를 여러 개의 대화 턴을 포함하는 training instacne으로 추출한다.
우리는 다음의 조건을 만족하는 instances들에서 데이터를 삭제하는 필터링을 한다.

(1) there is a URL in source or target,
(2) where the target contains word repetitions of at least three words,
(3) where the response does not contain at least one of the top-50 most frequent English words (e.g., “the”, “of”, “a”), since this probably indicates it might not be an English sentence,
(4) where the response contains special markers such as “[” or “]”, as this could be markup language,
(5) where source and target sequences together are longer than 200 words,
(6) where the target contains offensive language, identified by phrase matching against a large blocklist.

우리는 또한 공격적인 content을 할 것으로 식별되는 많은 수의 subreddits을 제외하였다.
추가적으로, 우리는 blandness한 것을 공격적으로 제거했다.

예) 1000번넘는 것을 본적있는 tri-grams들의 90% response의 instances을 제거

종종 비유익한 responses들은 데이터의 1%을 차지한다.
필터링 이후에, 데이터세트는 147,116,725 대화 instances으로 구성되고 최종 1.8 billion(억) 단어들을 가진다.

3 Method

3.1 Model Architecture

우리는 DIALOGPT 모델을 GPT-2을 기초로 학습하였다.
GPT-2 트랜스포머 모델은 일반적인 transformer language model로 masked multi-head self-attention layers의 stack을 활용하여 매우 큰 web-text 데이터로 학습한 것이다.
user-specific 프롬프트을 기반 혹은 (처음)scratch부터의 생성된 텍스트는 realistic하게 보인다.
GPT-2의 성공은 transformer LM이 미세한 레벨에서의 사람의 언어 데이터 분포를 특정지을 수 있음을 증명하고 이는 아마도 매우 큰 모델 능력과 뛰어난 효율성 때문일 것이다.
우리의 모델은 GPT-2을 상속받는다

GPT-2는 12-48 layer 트랜스포머 구조이고 layer normalization을 가진다.
초기화는 우리가 수정한 모델의 깊이와 byte pair encodings tokenizer을 설명한다.

우리는 OpenAI GPT-2로 긴 텍스트으로 multiturn 대화 세션을 모델링하고 LM을 생성 테스크로 구성한다.
우리는 첫번째로 대화세션 안에서 모든 대화 turns을 concat시켜 긴 text $x_1, ..., x_N$ (N은 시퀀스 길이)을 만들고 끝에는 end-of-text token을 넣는다.

대화 전체의 끝에만 END 토큰을 넣고 문장의 끝마다 END 토큰은 안넣는 거겠지?

우리는 source sentence (대화 히스토리)을 $S = x_1, ..., x_m$ 으로 표기하고 target sentence (ground truth response)을 $T = x_{m+1}, ..., x_N$ 으로 표기한다.
조건부 확률 $P(T|S)$ 은 조건부 확률의 일련의 곱으로 다음과 같이 쓰여진다.

multi-turn 대화 세션 $T_1, ..., T_K$ 은 다음과 같이 쓰여진다.

(1) $p(T_K, ..., T_2|T_1)$ 은 본질적으로 조건부 확률 $p(T_i|T_1, ..., T_{i-1})$ 의 곱이다.
즉 전체 멀티 턴의 확률은 각 turn에서 이전 대화 turn으로 현재 turn을 예측하는 확률들의 곱
결과적으로, single objective $p(T_K, ..., T_2|T_1)$ 을 optimizing 하는 것은 모든 $p(T_i|T_1, ..., T_{i-1})$ source-target 쌍을 optimizing으로 간주된다.

Our implementation is based on the opensource PyTorch-transformer repository.

3.2 Mutual Information Maximization

open-domain 텍스트 생성 모델들은 bland하고 uninformative samples 생성하는 것으로 악명이 높다.
이 문제를 설명하기 위해, 우리는 maximum mutual information (MMI) scoring function을 실행한다. (Li et al., 2016a; Zhang et al., 2018)
MMI는 pre-trained backword model로 주어진 response으로부터 source sentences을 예측하도록 적용한다. (즉 P(source|target))
우리는 우선 top-K 샘플링을 사용하여 hypotheses의 셋을 생성한다.
그리고나서, 우리는 P(Source|Hypothesis)의 확률로 모든 hypotheses을 rerank한다.
직관적으로, backward 모델이 likelihood을 최대화하면, 빈번하고 반복적인 hypotheses들이 많은 가능한 queries와 연관될 수 있기 때문에, bland hypothese을 처벌할 수 있으며, 따라서 특정 query에 대한 낮은 확률을 산출할 수 있다.
내 생각에는 이런말인듯)

source 문장들이 쭉 주어진다.
source들을 예측하는 많은 hypotheses중에 가장 확률을 뽑아내는 hypotheses는 bland하다는 것이다.
왜냐하면 이러한 hypotheses는 빈번하고 반복적으로 나온다는 것이므로 bland 하다는 것이다.
여기서 hypotheses는 top-K로 샘플링한다는데 이 부분은 잘 모르겠... → 4.4에 설명이 좀 되어있는 듯

우리는 또한 reward R을 최대화하는 시도를 한다.

P(Source|Hypothesis)는 sample-averaged baseline을 가지는 policy gradient을 사용한다.
이 논문에서, 이 부분을 자세히 설명을 안해주지만, P(Source|Hypothesis)가 reward의 개념으로 사용되서 학습이 되는 듯하다.
즉, hypothesis 입장에서 이상한 source가 안뽑히도록 backward likelihood을 쓰는 것이다.
일반적으로는 forward likelihood을 사용하나, 이러면 위에서 말하듯 bland 답변의 문제가 발생한다는 것이다.

가능한 reward는 안정적으로 개선될 수 있으나 RNN을 학습하는 것과 달리, 우리는 RL 학습이 쉽게 local-optimal solution을 악화하도록 수렴하는 것을 알게됐다.

이러한 local-optimal solution은 hypothesis는 간단히 source sentence을 반복하고 mutual information이 최대화 된다.

우리는 transformers가 그들의 강력한 모델 representation 파워때문에 local optima에 빠진다고 추측하였다.
우리는 미래에 regularized RL의 조사를 남겨둔다.

4 Result

4.1 Experimental Details

Table 1처럼 우리는 모델의 다른 사이즈 3개를 학습했다.

파라미터: 117M, 345M and 762M

우리의 모델은 vocab을 50257를 사용하고 16 Nvidia V100 으로 학습되었다.
우리는 Noam learning rate 스케쥴러 16000 warm-up steps을 사용했다.
learning rate는 validation loss을 기반으로 선택되었다.
각각의 모델은 validation loss에 발전이 없을 때까지 학습이 된다.
small과 medium 모델에서는, 우리는 5 epochs을 학습하였고 larget 모델에서는 3 epochs을 학습하였다.
Speeding up training

GPU 메모리 한계를 수용하고 학습을 가속화하기 위해, 우리는 먼저 모든 학습 데이터를 lazy-loading database file에 압축시켜서 데이터가 필요할때 로드될 수 있게 했다. (pre-fetching large chunks to reduce access frequency)
우리는 asynchronous 분리된 데이터 프로세싱을 활용하여 학습 스케을 키운다.
그 결과, 학습 시간은 GPU 숫자에 비례하여 선형적으로 줄어든다.
우리는 더 나아가서, dynamic batching 전략으로 비슷한 길이를 가지는 group conversations을 같은 배치로 적용하였고 이것은 학습 처리량을 늘렸다.

4.2 DSTC-7 Dialogue Generation Challenge

DSTC (Dialog System Technology Challenges) 7 track은 end-to-end 대화 모델링 테스크이고 이것은 external knowledge을 기반으로하는 정보를 주입한 칫챗을 넘어서는 대화 response을 생성하는 것을 목표로 가진다.
이 테스크는 일반적으로 goal-oriented, task-oriented 혹은 task-completion 대화와는 구별되며, 여기에는 사전정의된 목표가 구체적으로 없다. (예. booking a flight, or reserving a table at a restaurant)
대신에, 이것은 정의가 없거나 미리 알려지지 않은 목표의 human-like interactions을 목표로 하고, 업무 및 사람들과 정보를 공유하는 생산적 환경(예: 브레인스토밍 미팅)에서 볼 수 있는 종류의 상호작용을 목표로 한다.
DSTC-7 테스트 데이터는 Reddit 데이터로부터 대화 쓰레드를 포함한다.
multi-reference 테스트 셋을 만들기 위해서, 우리는 대화 세션이 6개 이상의 responses을 포함하도록 활용했다.
turn length와 같은 다른 필터링 조건이 주어졌을 때, 이것은 5-reference 테스트 셋 사이즈 2208을 야기한다.
(For each instance, one of the 6 human responses is set aside to assess human performance on this task.)
Note that our training data is collected from a different time span from the test set.
우리는 일반적인 기계번역 metrics을 사용하여 automatic evaluation을 수행한다.

BLEU, NIST 등을 퐇마한다.

우리는 또한 Enrtropy와 Dist-n으로 lexical diversity을 평가한다.

More details are provided in Galley et al. (2019).

우리는 DIALOGPT을 트위터 데이터로 학습을 기반으로한 비교할만한 seq2seq 모델 PERSONALITYCHAT 과 비교한다.

PERSONALITYCHAT은 Cognitive Service for Microsoft Azure 제품에서 사용된 모델이라고 한다.

345M 파라미터를 가지는 DIALOGPT와 beam search으로 가장 높은 automatic score을 달성한다.

*여기서부터 번역 (중요한 부분은 아닌거 같아서 귀찮...)
345M 매개변수를 가진 DIALOGPT의 점수는 117M 매개변수보다 전반적으로 더 좋다.
빔 검색(빔 폭 10 포함)은 BLEU와 DIST 점수를 획기적으로 향상시키고 NIST와 MEASE 점수를 약간 개선한다.
당사 모델은 소스-대상 쌍에서 미세 조정되며 DSTC 교육 세트의 grounding information를 활용하지 않는다는 점에 유의하십시오.
Presumably, the model learns background information during pre-training and is unhindered by the lack of a grounding document.
DIALOGPT의 자동 점수는 인간 점수보다 높다.
This does not mean that the generation is more “realistic” than human, but is probably attributable to the one-to-many nature of conversation
그림 1에 나타낸 것처럼, 다중 인간 반응(R1-R4)은 소스 발음과 잘 일치할 수 있다.
일반성을 상실하지 않는 한, R1-R3이 테스트될 "ground truth" 참조인 반면, R4는 "인간" 점수를 계산하는 "보류된" 인간 반응이라고 가정한다.
의미공간에서, 잘 훈련된 모델에서 생성된 반응 Rg는 아마도 가장 가능성이 높은 반응을 일으키려고 하기 때문에 가능한 모든 반응의 기하학적 중심에 있는 경향이 있을 것이다.
이는 모든 훈련 사례의 기하학적 평균에 가까울 수 있으므로 이러한 예들을 "평균화"할 수 있다.
따라서 생성된 응답 Rg는 R1-R3에서 목표 인간 응답 R4보다 낮은 "대안 거리"(BLEU와 같은 높은 자동 점수로 측정)를 가질 수 있다.

4.3 A New Reddit Multi-reference Dataset

우리는 6K 예제로 DIALOGPT를 다중 비교 테스트 세트에 대해 추가로 평가한다.
그 결과는 표 3에 나와 있다.
우리는 우리의 방법을 사전 훈련된 모델로 GPT-2를 사용한 처음부터 훈련하는 것과 미세 조정의 두 가지 설정으로 테스트한다.
두 가지 설정에서 모두 큰 모델이 작은 모델을 일관되게 능가한다.
사전 훈련된 GPT-2 모델에서 처음부터 미세 조정까지의 훈련을 비교해 보면, 소형 모델에 적용할 때 GPT-2 모델을 사용하면 더 큰 성능 향상을 얻을 수 있다.
다시 말하지만, 최고의 시스템 DIALOGPT(345M, 빔 검색 포함)는 BLEU에서 사람보다 높은 점수를 받는다.
처음부터 교육을 받은 대형 모델(345M 및 762M)은 GPT-2에서 마무리된 모델과 비교된다.

4.4 Re-ranking The Response Using MMI

We perform mutual information maximization as described in Section 3.2.
구체적으로는 GPT-2 중형 모델에서 미세 조정된 345M 모델을 사용하여 top-K 샘플링(K = 10)을 사용하여 각 입력 소스 문장에 대해 16개의 샘플을 생성한다.

즉 GPT-2 medium으로다가 tok-K을 사용하여 16개의 샘플을 만든다는 것을 이용하는 듯

이는 GPT-2 중형 모델에서 마무리된 345M 모델인 후진 모델을 사용하여 다시 순위를 매기는 단계가 뒤따른다.
The response that yields lowest backward model loss is selected for evaluation.
결과는 표 3의 두 번째에서 마지막 행까지 요약되어 있다.
탐욕스러운 세대들에 비해 MMI 재순위는 NIST, MICE, Entropy, Dist 점수가 높지만 BLEU가 약간 하락하여 더욱 다양한 반응을 만들어 내는 것을 알 수 있다.
automatic 결과만 보면, MMI없이 beam만 적용하는게 나아 보이는데..?

4.5 Generation Examples (번역)

표 4(인터랙티브 채팅)와 표 5(사용자 프롬프트가 있는 자가 재생 봇)에서 샘플 생성 대화 상자를 제공한다.
출력은 상위 K 샘플링에 기반한다.
흥미롭게도, 우리의 모델은 상식적인 질문들을 어느 정도 다룰 수 있는 능력을 보여주는데, 아마도 Reddit 데이터에서 배울 수 있는 풍부한 정보 때문일 것이다.
어떤 경우에는, "원하는" 대답을 주는 대신, 시스템은 대안적이고 합리적인 대답을 만들어 낸다.
우리의 관찰에 따르면 시스템은 RNN 상대보다 멀티턴 세대를 더 잘 다룰 수 있고 맥락과 관련하여 더 일관적인 경향이 있다(표 5).

4.6 Human Evaluation (번역)

인적 평가 크라우드 소싱을 사용하여 Reddit 6K 테스트 데이터 집합에서 무작위로 샘플링한 2000개의 테스트 소스를 평가했다.
시스템은 쌍으로 구성되었고 각 시스템 출력 쌍은 3명의 심판에게 무작위로 제시되었다.

이 3명의 심판이 relevance, informativeness, 그리고 how humanlike the generating이 3-point Likert-like scale을 사용하여 순위를 매긴다.

판사들은 자격시험을 통과하도록 요구되었고, 스팸 탐지 제도가 부과되었다.
관련성, 정보성 및 인간적 유사성에 대한 전반적인 심판 선호도는 표 7과 같다.
PersonalityChat보다 DialoGPT에 대한 강한 선호도를 관찰할 수 있다.
표 7은 또한 "바닐라" DialoGPT 매체 모델이 이미 인간의 반응 품질에 근접했을 수 있음을 시사한다.
예상외로, 우리는 많은 진정한 인간의 반응이 불규칙하거나 특이하기 때문에 판사가 인간의 반응보다 MMI 변형을 선호할 수 있다는 것을 발견했다.
(이 효과를 뒷받침하는 조건에 대해서는 섹션 4.2 참조)
유의성 시험 및 사용된 인적 평가 템플릿을 포함한 자세한 내용은 부록에 수록되어 있다.

5 Related work

~~볼드체 논문들은 읽어 봐야할 듯... (언제 다 ..)~~
DLGnet (Olabiyi and Mueller, 2019) is a large transformer model trained on dialogue dataset and achieves good performance in multi-turn dialogue generation.
AllenNLP (Gardner et al., 2018) is developed as a toolkit for many natural language processing tasks, including the large-scale pre-trained bi-LSTM sentence representation learning framework ELMo (Peters et al., 2018).
Texar (Hu et al., 2018) focuses on text generation including style transferring and controllable generation. It includes reinforcement learning capabilities along with its sequence modelling tools.
DeepPavlov (Burtsev et al., 2018) is a popular framework focusing on task-oriented dialogue.
This public repository contains several demos and pre-trained models for question answering and sentiment classification. Icecaps (Shiv et al., 2019) is a response generation toolkit with techniques such as grounding on personalities or external knowledge and multi-task training.
The ConvAI2 challenge (Dinan et al., 2019) has a focus on personalized conversations.
ParlAI (Miller et al., 2017) is another library for developing task-oriented dialogue systems. It contains pre-trained models for knowledge-grounded chatbot trained with crowdsourced data.
The Text-to-Text Transformer (Raffel et al., 2019) unifies multiple text modeling tasks, and achieves the state-of-the-art results in various natural language generation and understanding benchmarks.

6 Limitations and risks

DIALOGPT는 모델로만 출시되며 디코더 실행의 책임은 사용자에게 있다.

GPT 발표할 때 오픈하면 위험하다느니.. 그런 맥락인 듯

학습 이전에 공격적인 데이터의 양을 최소화 하는 우리 노력에도 불구하고, DIALOGPT는 공격적인 출력을 내뱉을 잠재력이 있다.

욕설, 비속어 데이터를 필터링 했음에도 혹시나 할 수도 있다.

출력은 데이터에 있는 성별과 다른 역사적인 편견을 반영할 수 있다.
이 모델을 사용하여 생성된 response은 비윤리적이거나 공격적인 제안에 동의하는 표현을 하는 경향이 있을 수 있다. (혹은 그 반대로 윤리적인 것에 비동의 할 수도 있음)
이것은 현재 SoTA로 알려져있는 end-to-end 대화 모델로 자연스럽게 발생한 많은 데이터로 학습되었다.

영어권에서는 GPT가지고 대화 모델을 구성하는 것 외에 이 모델을 백본으로 활용하는 것이 더 좋은 방법이 될 수도?

DIALOGPT을 릴리즈한 중요한 동기는 연구자들이 이러한 이슈를 조사하고 문제를 완화하는 전략을 개발하도록 함이다.
어떤 경우에도 DIALOGPT를 사용한 결과로 생성된 부적절한 콘텐츠가 저자나 마이크로소프트 Corporation의 견해나 가치를 반영하도록 해석되어서는 안 된다.

즉 오직 데이터로부터 학습된 것이다...
이런 부분에 심히 걱정하는 것을 하나의 section으로 다룰 만큼 성능이 좋은가?

7 Conclusion

우리는 방대한 real-world Reddit 데이터세트로 학습된 open-domain pre-trained model DIALOGPT을 릴리스했다.
패키지는 distributed training 파이프라인과 여러 개의 pre-trained model로 구성되어있다.

pre-trained model은 몇 시간동안 커스터마이징된 적절한 사이즈의 데이터세트에서 대화 모델을 fine-tuned할 수 있다.

DIALOGPT은 완전히 오픈 소스이고 쉽게 적용이 가능하여 users들이 pre-trained 대화 시스템으로 확장하여 다양한 데이터세트를 사용하여 학습할 수 있다.
building block을 novel application과 방법론으로 간주한다.
나쁜 출력의 detection과 control이 향후 조사의 초점이 될 것이다.
강화학습을 사용하여 생성된 반응의 연관성과 터무니없는 반응을 생성하지 않도록 모델을 발전시켰다.

We will investigate leveraging reinforcement learning to further improve the relevance of the generated responses and prevent the model from generating egregious(터무니없는) responses.

Reference

https://arxiv.org/pdf/1911.00536.pdf

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-075, DialoGPT: Large-Scale Generative Pre-training for Conversational Response Generation (2020-ACL system demonstration)

■ Comment

0. Abstract

1 Introduction

2 Dataset

3 Method

3.1 Model Architecture

3.2 Mutual Information Maximization

4 Result

4.1 Experimental Details

4.2 DSTC-7 Dialogue Generation Challenge

4.3 A New Reddit Multi-reference Dataset

4.4 Re-ranking The Response Using MMI

4.5 Generation Examples (번역)

4.6 Human Evaluation (번역)

5 Related work

6 Limitations and risks

7 Conclusion

댓글

댓글 쓰기