NL-103, Domain Adaptive Dialog Generation via Meta Learning (2019-ACL)
◼️ Comment
- 이 논문의 요지는, 제목처럼 meta learning으로 데이터가 적은 상황의 도메인에 대한 대화 시스템을 학습하는 것이다.
- meta-learning 기법은 DAML을 사용하였는데, 즉 DAML을 모르면 이 논문 자체를 이해하기가 어렵다.
- 개인적으로는 DAML을 몰라서 좀 살펴보고, 이어서 읽었고 여기서 DAML의 알고리즘을 거의 그대로 적용한 느낌이다.
- 사실 DAML 기법인 다른 도메인에 해당하는 meta dataset으로 모델들을 학습하여 target 도메인에서 모델을 학습하는 것이다.
- 모델 구조
- 모델 구조는 seq2seq 구조에 몇가지가 추가 된다.
- 첫 번째로 단순히 context+utterance -> response 식이 아니라 belief란 개념을 이용한다.
- belief는 대화에서 나온 slot 정보들이라고 판단되고 테이블3을 참고하면 될 것 같다.
- belief tracking에서 따온 개념인 것 같은데 자세한 것은.. 스킾
- 추가적으로 copy 메커니즘을 쓴 정도가 있겠다.
0 Abstract
- Domain adaptation은 매일 다양한 요구에 따라 생성되는 새로운 대화 테스크들이 너무 많기 때문에 대화 시스템 구축에서 필수적인 작업입니다.
- 새로운 테스크들에 대한 학습 데이터를 수집하고 레이블링하는 것은 실사용자 상호작용과 연관되어있기 때문에 비싸다.
- 우리는 meta-learning을 기반한 domain adaptive 대화 생성 방법을 (DAML) 제안한다.
- DAML은 end-to-end 학습가능한 대화 시스템 모델로 여러 풍부한 리소스 테스크들로부터 학습이되고나서 새로운 도메인에 적은 학습 샘플들로 적용한다.
- 우리는 대화 도메인에 model agnostic meta-learning 알고리즘을 적용하여 대화 시스템 모델을 여러 풍부한 리소스 single 도메인 대화 데이터를 사용해서 학습한다.
- 모델은 효율적인 방법으로 적은 학습 예제만을 가지는 새로운 도메인에서 경잭력있는 대화 시스템을 학습할 수 있는 능력을 가진다.
- DAML의 two-step gradient updates는 모델이 다양한 테스크들에서 일반적인 features을 학습하게한다.
- 우리는 시뮬레이션된 대화 데이터세트에서의 우리의 방법을 평가하여 SoTA 성능을 달성하고, 이는 새로운 테스크에 대해 일반화할 수 있다.
1 Introduction
- 최근 개인적인 어시스턴스들은 (Alexa, Siri와 같은) 수천개의 single-domain task-oriented 대화 시스템으로 구성되어있다.
- 매 대화 테스크는 구체적인 도메인 지식때문에 다르다.
- E2E 학습가능한 대화시스템은 학습을 위한 수천개의 대화들을 요구한다.
- 그러나, 학습 데이터의 사용가능함은 일반적으로 실사용자가 학습 대화들을 획득하는데 연루되어야하는 한계가 있다.
- 그래서, 기존의 풍부한 리소스 데이터를 limited 리소스를 가지는 새로운 도메인에 적용하는것은 대화 시스템 연구에서 필수적인 테스크이다.
- Transfer learning, few-shot learning, meta-learning은 머신러닝에서 데이터 부족 문제와 같은 것을 해결하기위해 소개되었다.
- 모든 대화 도메인이 서로가 다르기 때문에, 풍부한 도메인의 정보를 다른 적은 리소스 도메인으로 일반화하는 것은 어렵다.
- 그래서, 오직 몇 개의 연구들만이 domain adaptive end-to-end 대화 학습 방법들을 해결하고 있다.
- 우리는 meta-learning을 기반으로한 DAML을 소개하여 학습에서 여러 개의 대화 테스크들을 결합하여 새로운 도메인에 적용할 수 있는 일반적인고 transferable 정보들을 학습한다.
- Zhao and Eskenazi은 action matching이란 학습 프레임워크를 소개하는데, 이는 seed 응답의 형태로 doamin 설명을 기반으로 zero-shot dialog generation (ZSDG)을 실현가능하게 한다.
- 새로운 도메인에 대한 제한된 지식으로, 여러 개의 풍부한 리소스 도메인으로 학습된 모델은 impressive task completion rate와 자연스럽게 생성된 응답을 달성한다.
- action matching 보다, 우리는 model agnostic meta-learning (MAML) 알고리즘을 제안하여 대화 도메인 적용을 수행한다.
- MAML: https://arxiv.org/pdf/1703.03400.pdf
- http://dmqm.korea.ac.kr/activity/seminar/265
- https://chioni.github.io/posts/maml/
- https://www.youtube.com/watch?v=fxJXXKZb-ik&t=5s
- https://chioni.github.io/posts/mamlp/
- https://github.com/vmikulik/maml-pytorch
- MAML 알고리즘은 여러 개의 테스크들의 inetranl representation을 구축하고 새 테스크에 적용할 때 loss function의 sensitivity을 최대하하여 파라미터의 작은 업데이트가 새로운 테스크 loss value의 큰 향상으로 이끌 수 있다.
- 이를 통해 대화 시스템은 효율적인 방식으로 target 도메인 데이터가 적고 새 도메인에 성공적으로 적응할 수 있습니다.
- 논문의 주요 아이디어는 여러 개의 리소스 도메인들의 풍부한 데이터를 활용해서 초기화를 찾는 것이 정확하고 빠르게 적은 데이터를가지는 unknown 새로운 도메인에 적용하는 것이다.
- 우리는 SimDial로 생성된 시뮬레이트된 데이터를 사용한다.
- 구체적으로, 우리는 세 개의 도메인들을 사용한다.
- restaurant, weather, and bus information search을 소스 데이터로 사용한다.
- target 도메인인 movie information search에 대한 meta-learned 파라미터 초기화를 테스트한다.
- Sequicity를 (seq2seq encoder-decoder 프레임워크) 수정하여, 두 스테이지 CopyNet을 향상시키고, 우리는 MAML 알고리즘을 실행하고 소스 도메인에서 대화 데이터를 사용하여 최적의 초기화를 달성한다.
- 그리고나서, 우리는 gradient descent을 적용하여 대화 데이터의 적은 부분을 가지는 target 도메인에 초기화를 fine-tune한다.
- 마침내, 우리는 target 도메인의 테스트 데이터로 적용한 모델을 평가한다.
- We outperform the state-of-the-art zero-shot baseline, ZSDG (Zhao and Eskenazi ´ , 2018), as well as other transfer learning methods (Caruana, 1997b).
- We publish the code on the github.
2 Related Works (번역)
- 작업 지향 대화 시스템은 사용자가 레스토랑 예약 또는 날씨 정보 쿼리와 같은 특정 작업을 완료 할 수 있도록 개발되었습니다.
- 대화 시스템을 구축하는 전통적인 방법은 자연어 이해 (NLU) (Deng et al., 2012; Dauphin et al., 2014; Hashemi et al.)와 같이 모듈을 개별적으로 훈련하는 것입니다 (Chen et al., 2017). , 대화 상태 추적기 (Henderson et al., 2014), 대화 정책 학습 (Cuayahuitl ´ et al., 2015; Young et al., 2013) 및 자연어 생성 (NLG) (Dhingra et al., 2017; Wen et al. ., 2015).
- Henderson et al. (2013)은 사용자의 요구 사항 및 제약 조건을 차례대로 추적하는 "신념 추적기"개념을 도입했습니다.
- 최근에는 더 쉬운 모델 업데이트를 위해 모든 모듈을 seq2seq 모델로 결합하는 작업이 점점 늘어나고 있습니다.
- Lei et al. (2018)은 2 단계 CopyNet (Gu et al., 2016)에 구축 된 새로운 end-to-end 대화 시스템 인 sequicity를 도입했습니다. 하나는 신념 추적 기용이고 다른 하나는 응답 생성 용입니다.
- 이 모델은 두 개의 대규모 데이터 세트에서 기준선을 능가하면서 최첨단 기준선보다 더 적은 수의 매개 변수와 학습 속도를 제공합니다.
- 기계 학습 연구의 전통적인 패러다임은 주석이 달린 데이터가 많은 특정 작업에 대한 모델을 훈련시키는 것입니다.
- 분명히 비슷한 작업을위한 모델이 이미있는 경우 처음부터 모델을 교육하는 데 많은 양의 데이터가 여전히 필요하다는 것은 합리적이지 않습니다.
- 대신 소량의 새 데이터를 사용하여 훈련 된 모델을 새 작업에 빠르게 적용하려고합니다.
- 대화 적응은 다양한 차원에서 탐구되었습니다.
- Shi and Yu (2018)는 사용자 감성에 적응하는 종단 간 대화 시스템을 소개합니다.
- Mo et al. (2018)과 Genevay and Laroche (2016)도 전이 학습을 사용하여 사용자 적응 형 대화 시스템을 훈련합니다.
- 최근 대화 시스템에서 자연어 생성을위한 효과적인 도메인 적응이 도입되었습니다 (Tran and Nguyen, 2018; Wen et al., 2016).
- 일부 도메인 적응 작업은 대화 상태 추적 (Mrksiˇ c et al. ´, 2015) 및 대화 정책 학습 (Vlasov et al., 2018)에서도 수행되었습니다.
- 그러나 ZSDG Zhao 및 Eskenazi ´ (2018)를 제외하고 seq2seq 대화 시스템의 도메인 적응에 대한 최근 작업은 없습니다.
- ZSDG는 도메인 설명 만 사용하여 여러 소스 도메인에서 학습 한 모델을 새로운 대상 도메인에 적용하기 위해 액션 매칭을 적용하는 제로 샷 학습 방법입니다.
- ZSDG와 달리 유사한 도메인 적응 능력을 달성하기 위해 메타 학습을 적용 할 것을 제안합니다.
- 메타 학습은 잘 알려진 작업을 기반으로 몇 단계와 적은 데이터로 새로운 작업을 학습하는 것을 목표로합니다.
- 메타 학습을 실현하는 한 가지 방법은 적은 데이터로 새 작업에 정확하고 빠르게 적용 할 수있는 최적의 초기화를 학습하는 것입니다 (Vinyals et al., 2016; Snell et al., 2017).
- learning progress을 학습하는 또 다른 방법은 매개 변수 업데이트를 위해 원래 네트워크의 최적화 프로그램을 최적화하도록 meta-learner를 훈련하는 것입니다 (Andrychowicz et al., 2016; Grant et al., 2018).
- 메타 러닝은 이미지 분류 (Santoro et al., 2016; Finn et al., 2017), 기계 번역 (Gu et al., 2018), 로봇 조작 (Duan et al., 2016; Wang et al., 2016) 등
- 우리는 대화 영역 적응을 달성하기 위해 평등 모델 위에 메타 학습 알고리즘을 적용 할 것을 제안합니다.
- 특히 최근에 도입 된 알고리즘 인 MAML (model-agnostic meta-learning) (Finn et al., 2017)을 선택했는데, 이는 서로 다른 모델에 걸쳐 일반화되기 때문입니다.
- 이 알고리즘은 회귀, 분류 및 정책 경사 강화 학습과 같이 경사 하강 법으로 최적화 된 모든 모델과 호환됩니다.
- 또한이 알고리즘은 이미지 분류를위한 다른 최첨단 원샷 알고리즘보다 성능이 뛰어납니다.
3 Problem Formulation
- Seq2Seq 기반의 대화모델들은 대화 context c을 입력으로 하여 sentence r을 response로 생성한다.
- K개의 다른 소스 도메인들에서 풍부한 데이터가 주어지면, 우리는 각 소스 도메인
에서의 학습 데이터를 가지고 다음과 같이 표기한다.
- we also denote the data in the target domain T as:
- During the training process, we generate a model
- 적용을 위해, 우리는 model
을 target domain 학습 데이터
에 대해 fine-tune하고 새로운 모델인
을 획득한다.
- 우리의 첫 번째 목표는 모델이 새로운 target 도메인에서 잘 작동하는 것이다.
4 Proposed Methods
- 우리는 먼저 MAML 알고리즘과 sequicity 모델을 어떻게 결합하는지 소개한다.
- 그림 1에서 일반적인 gradient descnet을 보여주고 다음을 포함한다.
- (1) combining training data and initialized model,
- (2) computing the objective loss and then
- (3) using the loss to update the model parameters.
- 그러나 MAML은 2개의 gradient update steps가 있다.
- (1) 우리는 먼저 초기화된 모델 M을 각 소스 도메인
의 학습 데이터 (
,
)와 개별적으로 결합한다.
- (2) 각 대화 도메인에서, 우리는 loss Loss_k을 계산하고 이를 모든 새로운 임시 도메인 모델
을 업데이트하는데 사용한다.
- (4) 다시 우리는 각 도메인의 data (
,
)을 사용하고 그것과 대응되는 temporarily 업데이트된 도메인 모델
으로 새로운 loss Loss'_k을 각 도메인에서 계산한다.
- (6) 그리고 모든 새로운 도메인 loss을 더해서 final loss을 얻는다.
- (7) 마침내, 우리는 final loss을 사용하여 original model M을 업데이트한다.
- 다음의 파트에서, 우리는 MAML 알고리즘의 상세 실행과 sequicity 모델을 각각 소개한다.
- 알고리즘 1에서 설명하듯이, sequicity 모델은 NLU와 대화 관리와 response generation을 seq2seq 방식으로 결합하는데 사용되며 meta-learning은 더 나은 optimization을 위해 적절한 loss function 값을 조정하는 방법이다.
- α and β in the algorithm are the learning rate.
- 섹션 3에서 언급한 듯이, c는 context을 말하고 각 턴에서 모델의 입력이 된다.
- sequiciy 모델을 사용하기 위해, 우리는 c을 time t에서 {
,
,
}로 포매팅하고
은 time t-1에서 previous belief span이고
은 last system response이고
은 current user utterance이다.
- belief span이 결국 context, history을 담는 개념인듯?
- Sequicity model은 belief spans을 소개하여 모든 정보 slots의 값들을 저장하고 또한 history을 통하여 요청가능한 slot names을 기록한다.
- 이 방법에서, 모든 history utterance을 RNN에 넣어 context features을 추출하는 대신, 우리는 직접적으로 모든 history contexts의 representation으로써 belief span에 저장된 slots을 다룬다.
- 정확히 Bt가 무엇을 의미하는가?
- 즉, discrete한 slot이 Bt가 되는 것인가?
- history context 표현하는데 belief span은 좀 더 정확하고 간단하여 매 turn에서 업데이트가 필요하다.
- 유익하고 요청가능한 slots은 같은 span에 저장되나 ambiguity을 피하기위해 다른 labels을 가진다.
- t=1에서 context는 이전의 belief span
로써 empty set을 포함하고 이전의 system response
로써 empty string을 포함한다.
- MAML 알고리즘 뒤의 직관은 몇 개의 internal representations이 다른 것에 비해 trasferable 하다는 것이다.
- 이것은 몇 internal features가 단일 도메인보다 여러 개 대화 도메인에 적용가능함을 제시한다.
- MAML은 gradient descent based model과 호환가능하기 때문에, 우리는 현재 generative 대화 모델 M이라 표기하고 랜덤초기화가 가능하다.
- 알고리즘에 따르면, 각 소스 도메인
에서, 학습 데이터의 특정 사이즈가 샘플링된다.
- 우리는 학습 데이터 (
,
)을 sequicity 모델에 입력하고 생성된 시스템 response을 얻는다.
- 우리는 cross-entropy을 loss function으로 모든 도메인에서 적용한다.
- 각 소스 도메인
에서, 우리는 gradient descent로 업데이트하고 temporary 모델을 얻는다.
- (Finn et al., 2017)과 일치하도록 모델을 one step만 업데이트합니다.
- 이러한 방법으로, 우리는 M에서 one step 떨어진 각 소스 도메인에서 업데이트된 모델을 가진다.
- 우리는 미래 연구에서 gradient update의 여러 steps을 고려한다.
- 그리고나서, 우리는 각 소스 도메인의 같은 학습 데이터를 가지고 업데이트된 모델을 기반으로 loss을 계산한다.
- 이 step 이후에, 우리는 각 도메인에서 meta loss 값을 갖는다.
- 우리는 meta-learning의 objective function으로 모든 소스 도메인의 업데이트된 loss value을 합한다.
- 마침내, 우리는 모델을 meta objective function을 최소화하도록 업데이트한다.
- MAML에서 일반 gradient와 달리 우리가 모델 업데이트에 사용하는 objective loss는 현재 모델
로부터 직접적으로 계산되지 않고, temporary model
으로부터 구해진다.
- 이게 무슨말이냐면, M(target) 모델에서 gradient을 계산해서 업데이트하는 것이 아니다.
- 대신 M(source) 모델에서 계산한 gradient을 target의 gradient인마냥 업데이트하는 것이다.
- 여기서 M(source)가 meta-train으로 one-step간 모델이 되는 것이다.
- 이 동작뒤에 있는 아이디어는 업데이트된 모델으로부터 계산된 loss는 original domains의 변화에 명백히 좀 더 sensitive하므로 우리가 각 도메인의 distinctive features 보다 모든 source domains의 common internal representations에 대하여 배운다.
- adaptation step에서, basic interanl representation은 이미 capture되었기 때문에, 모델은 새로운 도메인의 unique features에 민감하다.
- 결과로, one or a few gradient steps와 최소 데이터의 양은 model이 새로운 도메인에 최적화되기 필요하다.
- sequicity 모델은 copying mechanism과 belief span과 결합한 single seq2seq 모델을 기반으로 구성되어 dialog sates을 기록한다.
- {
,
,
} 형태의 context c가 주어지면, time t에서 belief span
은 이전의 time t-1에서의 belief span
, history response
와 utterance
을 기반으로 추출된다.
- 그리고나서, 우리는 context와 추출된 belief span을 기반으로 response을 생성한다.
는 간단한 레이블로 response 생성에 도움을 준다.
- 요청된 정보가
에 저장된 constraints을 가지는 데이터베이스안에서 사용가능한지 아닌지를 체크한다.
- Bt안의 slots들이 constraints가 되어서, 데이트베이스안에서 매칭을 시켜본다는 것인가? 즉 slots이 데이터베이스안에 얼마나 있는가?
는 세 개의 가능한 값을 가진다: 1) no match, 2) exact match, 3) multiple match.
= "no match"는 시스템이 주어진 제약에서 데이터베이스안에서 match을 찾을 수 없는 것을 말하고, 그러면 시스템은 대화를 처음부터 재시작한다.
= "exact match"는 시스템이 성공적으로 요청된 정보를 검색하고 테스크를 완성한다. 그리고나서 시스템은 대화를 끝낸다.
= "multiple matches"은 여러 개의 items이 모든 제약들과 매칭되고 그래서 더 많은 제약들이 backend database안에서 검색 범위를 줄이기위해 필요하다.
- 따라서 시스템은 더 많은 정보를 도출하기 위해 질문을 출력합니다.
- 그림 2에서 구조를 설명하고 어떠한 seq2seq 모델과 호환된다.
- 간단한 구조를 가지기 위해, 우리는 basic encoder-decoder 구조를 적용한다.
- encoder와 decoder 모두 attention mechanism을 가지는 GRU을 적용한다.
- response는 belief span과 현재 time의 utterance을 사용하여 생성된다.
- 모델을 간단하게 하기 위해, 우리는 belief extractor와 response generator을 같은 encoder로 공유한다.
- So we reformulate the equations into:
- response와 utternace가 보통 some word tokens을 공유하기 때문에, sequicity 모델은 또한 copy-attention 메커니즘을 통합한다.
- 보통, encoded vector을 디코딩하기 위해, 모델은
에서 vocabulary
에 대한 확률을 얻기 위해 softmax을 사용한다.
- copy-attention을 통해, 디코더는 vocabulary에대한 단어 생성 확률 distribution뿐만 아니라,
에서 입력 sequence
에 대한 word을 copy할 가능성도 고려한다.
- 그리고나서, 출력 시퀀스에있는 ith 토큰에 해당하는 최종 word v의 확률은 이 두 확률들을 더하여 계산된다. (normalization is performed after the summation)
- copy probability은 Gu et al. (2016)와 유사하게 계산되며, belief span decoder와 response decoder은 다르다.
- For the belief span decoder, the copy probability is calculated as:
- where Z is a normalization factor and
is the jth word tokens in the utterance
.
- 우리는 오직
이 target word v와 똑같을 때만 요소를 추가한다.
is computed by:
- 즉 위와 같이
을 계산하고 이의 exponential 값들을 더하고 normalizing하여
을 구하는 것
은 인코더에서의 입력의 j번째 단어에 대한 hidden state이고,
은 belief span decoder에서의 hiddens state이고
은 copy attention weight이다.
- response 디코더에서, 우리는 utterance
대신 최근에 생성된 belief span
에 대해 copy attention을 적용한다.
5 Experiment
5.1 Dataset (번역)
- 최첨단 도메인 적응 알고리즘 인 ZSDG (Zhao and Eskenazi ´, 2018)와의 공정한 비교를 위해 ZSDG를 평가하기 위해 처음 도입 된 데이터 세트 SimDial을 사용합니다.
- SimDial에는 레스토랑, 날씨, 버스, 영화, 레스토랑 슬롯 및 레스토랑 스타일의 총 6 개의 대화 도메인이 있습니다.
- 레스토랑 슬롯 데이터에는 레스토랑 작업과 동일한 슬롯 유형 및 문장 생성 템플릿이 있지만 슬롯 어휘는 다릅니다.
- 마찬가지로, 레스토랑 스타일은 레스토랑 도메인에 비해 슬롯이 동일하지만 자연어 생성 (NLG) 템플릿이 다릅니다.
- (Zhao and Eskenazi ´, 2018)의 ZSDG 실험 설정에 따라 표시된 소스 도메인으로 레스토랑, 날씨 및 버스를 선택합니다.
- 각 소스 도메인에 대해 학습, 검증 및 테스트를위한 900, 100, 500 개의 대화가 있으며, 각 대화에는 9 번의 턴이 있고 각 발화에는 평균 13 개의 단어 토큰이 있습니다.
- 나머지 세 도메인은 평가 용이며 대상 도메인으로 간주됩니다.
- ZSDG에서 사용되는 시드 응답은 일련의 시스템 발화 및 해당 레이블입니다.
- 공정한 비교를 위해 적응 훈련에 동일한 크기의 대화 데이터를 사용합니다.
- 각 도메인의 적응 훈련에 대해 9 개의 대화 상자 (소스 도메인의 1 %)를 생성하며 각 대화에는 평균적으로 약 8.4 턴이 포함됩니다.
- 따라서 각 대상 도메인에 대해 도메인 설명으로 사용되는 ZSDG 인 100 개의 시드 응답보다 작은 약 76 개의 시스템 응답이 있다고 가정합니다.
- 테스트를 위해 각 대상 모델에 대해 500 개의 대화 상자를 사용합니다.
- 영화는 평가를위한 새 대상 도메인으로 선택됩니다.
- 영화는 NLG 템플릿과 대화 구조가 완전히 다르기 때문에 표면 수준에서 소스 도메인과 공통 특성을 거의 공유하지 않습니다.
- 이 소수 학습 설정에서 임의의 결과를 방지하기 위해 모든 결과에 대해 평균 10 회의 임의 실행을보고합니다.
- 제안 된 방법의 속성을 추가로 탐색하기 위해 원샷 실험을위한 하나의 대화 상자를 생성했습니다.
- 대화 상자 45 개 (소스 도메인 크기의 5 %), 대화 상자 90 개 (소스 도메인 크기의 10 %) 우리 방법의 적응 효율성.
5.2 Metrics (번역)
- 실험에는 BLEU 점수, 엔티티 F1 점수 및 적응 시간의 세 가지 주요 메트릭이 있습니다.
- 처음 두 가지는 Finn에서 사용되는 가장 중요하고 설득력있는 측정 항목으로 새로운 작업에 대한 MAML의 빠른 적응 속도를 철저히 입증했습니다.
- 하프 치타와 개미가 통합 된 한 단계의 그라데이션 업데이트로 놀라운 성능을 얻을 수도 있습니다.
- 우리는 또한 우리의 방법과 전이 학습의 기준 사이의 적응 속도를 비교하기 위해 적응에 대한 epoch의 수를 계산하고 싶습니다.
- BLEU
- We use BLEU score to evaluate the quality of generated response sentences since generating natural language is also part of the task.
- Entity F1 Score
- For each dialog, we compare the generated belief span and the Oracle one.
- Since belief span contains all the slots that constraints the response, this score also checks the completeness of tasks.
- Adapting Time
- We count the number of epochs during the adaptation training.
- We only compare the adaptation with the data of the same size.
5.3 Baseline Models
- ZSDG: https://arxiv.org/pdf/1805.04803.pdf
- Transfer learning
5.4 Implementation details
- For all experiments, we use the pre-trained GloVe word embedding (Pennington et al., 2014) with a dimension of 50.
- We choose the one-layer GRU networks with a hidden size of 50 to construct the encoder and decoder.
- The model is optimized using Adam (Kingma and Ba, 2014) with a learning rate of 0.003. We reduce the learning rate to half if the validation loss increases.
- We set the batch (Ioffe and Szegedy, 2015) size to 32 and the dropout (Zaremba et al., 2014) rate to 0.5.
6 Results and Analysis
7 Conclusion and Future Work
- 우리는 meta-learning (DAML)을 기반으로하는 domain adaptive 대화 생성 방법을 제안한다.
- 우리는 end-to-end 학습가능한 대화시스템을 구축하는데, 이는 two-step gradient 업데이트를하여 새로운 도메인에 좀 더 민감한 모델들을 획득하는 것이다.
- 우리는 우리의 모델을 여러 독립적인 도메인을 가지는 시뮬레이트된 dataset으로 평가한다.
- DAML은 Entity F1에서 zero-shot learning 방법과 transfer learning 방법과 비교해서 SoTA 성능을 달성한다.
- DAML은 적은 리소스를 가지는 대화 시스템을 학습하는 효과적이고 강인한 방법이다.
- DAML은 강화학습기반의 대화 시스템에서 DAML을 적용하는 것과 같이 또한 신뢰할만한 가능성있는 확장을 제공한다.
- We also plan to adapt DAML to multi-domain dialog tasks.
Reference
댓글
댓글 쓰기