◼️ Comment

이 논문의 요지는, 제목처럼 meta learning으로 데이터가 적은 상황의 도메인에 대한 대화 시스템을 학습하는 것이다.

meta-learning 기법은 DAML을 사용하였는데, 즉 DAML을 모르면 이 논문 자체를 이해하기가 어렵다.
개인적으로는 DAML을 몰라서 좀 살펴보고, 이어서 읽었고 여기서 DAML의 알고리즘을 거의 그대로 적용한 느낌이다.

사실 DAML 기법인 다른 도메인에 해당하는 meta dataset으로 모델들을 학습하여 target 도메인에서 모델을 학습하는 것이다.
모델 구조

모델 구조는 seq2seq 구조에 몇가지가 추가 된다.
첫 번째로 단순히 context+utterance -> response 식이 아니라 belief란 개념을 이용한다.
belief는 대화에서 나온 slot 정보들이라고 판단되고 테이블3을 참고하면 될 것 같다.
belief tracking에서 따온 개념인 것 같은데 자세한 것은.. 스킾
추가적으로 copy 메커니즘을 쓴 정도가 있겠다.

0 Abstract

Domain adaptation은 매일 다양한 요구에 따라 생성되는 새로운 대화 테스크들이 너무 많기 때문에 대화 시스템 구축에서 필수적인 작업입니다.
새로운 테스크들에 대한 학습 데이터를 수집하고 레이블링하는 것은 실사용자 상호작용과 연관되어있기 때문에 비싸다.
우리는 meta-learning을 기반한 domain adaptive 대화 생성 방법을 (DAML) 제안한다.
DAML은 end-to-end 학습가능한 대화 시스템 모델로 여러 풍부한 리소스 테스크들로부터 학습이되고나서 새로운 도메인에 적은 학습 샘플들로 적용한다.
우리는 대화 도메인에 model agnostic meta-learning 알고리즘을 적용하여 대화 시스템 모델을 여러 풍부한 리소스 single 도메인 대화 데이터를 사용해서 학습한다.
모델은 효율적인 방법으로 적은 학습 예제만을 가지는 새로운 도메인에서 경잭력있는 대화 시스템을 학습할 수 있는 능력을 가진다.
DAML의 two-step gradient updates는 모델이 다양한 테스크들에서 일반적인 features을 학습하게한다.
우리는 시뮬레이션된 대화 데이터세트에서의 우리의 방법을 평가하여 SoTA 성능을 달성하고, 이는 새로운 테스크에 대해 일반화할 수 있다.

1 Introduction

최근 개인적인 어시스턴스들은 (Alexa, Siri와 같은) 수천개의 single-domain task-oriented 대화 시스템으로 구성되어있다.
매 대화 테스크는 구체적인 도메인 지식때문에 다르다.
E2E 학습가능한 대화시스템은 학습을 위한 수천개의 대화들을 요구한다.
그러나, 학습 데이터의 사용가능함은 일반적으로 실사용자가 학습 대화들을 획득하는데 연루되어야하는 한계가 있다.
그래서, 기존의 풍부한 리소스 데이터를 limited 리소스를 가지는 새로운 도메인에 적용하는것은 대화 시스템 연구에서 필수적인 테스크이다.
Transfer learning, few-shot learning, meta-learning은 머신러닝에서 데이터 부족 문제와 같은 것을 해결하기위해 소개되었다.
모든 대화 도메인이 서로가 다르기 때문에, 풍부한 도메인의 정보를 다른 적은 리소스 도메인으로 일반화하는 것은 어렵다.
그래서, 오직 몇 개의 연구들만이 domain adaptive end-to-end 대화 학습 방법들을 해결하고 있다.
우리는 meta-learning을 기반으로한 DAML을 소개하여 학습에서 여러 개의 대화 테스크들을 결합하여 새로운 도메인에 적용할 수 있는 일반적인고 transferable 정보들을 학습한다.
Zhao and Eskenazi은 action matching이란 학습 프레임워크를 소개하는데, 이는 seed 응답의 형태로 doamin 설명을 기반으로 zero-shot dialog generation (ZSDG)을 실현가능하게 한다.
새로운 도메인에 대한 제한된 지식으로, 여러 개의 풍부한 리소스 도메인으로 학습된 모델은 impressive task completion rate와 자연스럽게 생성된 응답을 달성한다.
action matching 보다, 우리는 model agnostic meta-learning (MAML) 알고리즘을 제안하여 대화 도메인 적용을 수행한다.

MAML 알고리즘은 여러 개의 테스크들의 inetranl representation을 구축하고 새 테스크에 적용할 때 loss function의 sensitivity을 최대하하여 파라미터의 작은 업데이트가 새로운 테스크 loss value의 큰 향상으로 이끌 수 있다.
이를 통해 대화 시스템은 효율적인 방식으로 target 도메인 데이터가 적고 새 도메인에 성공적으로 적응할 수 있습니다.
논문의 주요 아이디어는 여러 개의 리소스 도메인들의 풍부한 데이터를 활용해서 초기화를 찾는 것이 정확하고 빠르게 적은 데이터를가지는 unknown 새로운 도메인에 적용하는 것이다.
우리는 SimDial로 생성된 시뮬레이트된 데이터를 사용한다.
구체적으로, 우리는 세 개의 도메인들을 사용한다.

restaurant, weather, and bus information search을 소스 데이터로 사용한다.
target 도메인인 movie information search에 대한 meta-learned 파라미터 초기화를 테스트한다.

Sequicity를 (seq2seq encoder-decoder 프레임워크) 수정하여, 두 스테이지 CopyNet을 향상시키고, 우리는 MAML 알고리즘을 실행하고 소스 도메인에서 대화 데이터를 사용하여 최적의 초기화를 달성한다.

그리고나서, 우리는 gradient descent을 적용하여 대화 데이터의 적은 부분을 가지는 target 도메인에 초기화를 fine-tune한다.

마침내, 우리는 target 도메인의 테스트 데이터로 적용한 모델을 평가한다.
We outperform the state-of-the-art zero-shot baseline, ZSDG (Zhao and Eskenazi ´ , 2018), as well as other transfer learning methods (Caruana, 1997b).
We publish the code on the github.

https://github.com/qbetterk/DAML

2 Related Works (번역)

작업 지향 대화 시스템은 사용자가 레스토랑 예약 또는 날씨 정보 쿼리와 같은 특정 작업을 완료 할 수 있도록 개발되었습니다.
대화 시스템을 구축하는 전통적인 방법은 자연어 이해 (NLU) (Deng et al., 2012; Dauphin et al., 2014; Hashemi et al.)와 같이 모듈을 개별적으로 훈련하는 것입니다 (Chen et al., 2017). , 대화 상태 추적기 (Henderson et al., 2014), 대화 정책 학습 (Cuayahuitl ´ et al., 2015; Young et al., 2013) 및 자연어 생성 (NLG) (Dhingra et al., 2017; Wen et al. ., 2015).
Henderson et al. (2013)은 사용자의 요구 사항 및 제약 조건을 차례대로 추적하는 "신념 추적기"개념을 도입했습니다.
최근에는 더 쉬운 모델 업데이트를 위해 모든 모듈을 seq2seq 모델로 결합하는 작업이 점점 늘어나고 있습니다.
Lei et al. (2018)은 2 단계 CopyNet (Gu et al., 2016)에 구축 된 새로운 end-to-end 대화 시스템 인 sequicity를 도입했습니다. 하나는 신념 추적 기용이고 다른 하나는 응답 생성 용입니다.
이 모델은 두 개의 대규모 데이터 세트에서 기준선을 능가하면서 최첨단 기준선보다 더 적은 수의 매개 변수와 학습 속도를 제공합니다.
기계 학습 연구의 전통적인 패러다임은 주석이 달린 데이터가 많은 특정 작업에 대한 모델을 훈련시키는 것입니다.
분명히 비슷한 작업을위한 모델이 이미있는 경우 처음부터 모델을 교육하는 데 많은 양의 데이터가 여전히 필요하다는 것은 합리적이지 않습니다.
대신 소량의 새 데이터를 사용하여 훈련 된 모델을 새 작업에 빠르게 적용하려고합니다.
대화 적응은 다양한 차원에서 탐구되었습니다.
Shi and Yu (2018)는 사용자 감성에 적응하는 종단 간 대화 시스템을 소개합니다.
Mo et al. (2018)과 Genevay and Laroche (2016)도 전이 학습을 사용하여 사용자 적응 형 대화 시스템을 훈련합니다.
최근 대화 시스템에서 자연어 생성을위한 효과적인 도메인 적응이 도입되었습니다 (Tran and Nguyen, 2018; Wen et al., 2016).
일부 도메인 적응 작업은 대화 상태 추적 (Mrksiˇ c et al. ´, 2015) 및 대화 정책 학습 (Vlasov et al., 2018)에서도 수행되었습니다.
그러나 ZSDG Zhao 및 Eskenazi ´ (2018)를 제외하고 seq2seq 대화 시스템의 도메인 적응에 대한 최근 작업은 없습니다.
ZSDG는 도메인 설명 만 사용하여 여러 소스 도메인에서 학습 한 모델을 새로운 대상 도메인에 적용하기 위해 액션 매칭을 적용하는 제로 샷 학습 방법입니다.
ZSDG와 달리 유사한 도메인 적응 능력을 달성하기 위해 메타 학습을 적용 할 것을 제안합니다.
메타 학습은 잘 알려진 작업을 기반으로 몇 단계와 적은 데이터로 새로운 작업을 학습하는 것을 목표로합니다.
메타 학습을 실현하는 한 가지 방법은 적은 데이터로 새 작업에 정확하고 빠르게 적용 할 수있는 최적의 초기화를 학습하는 것입니다 (Vinyals et al., 2016; Snell et al., 2017).
learning progress을 학습하는 또 다른 방법은 매개 변수 업데이트를 위해 원래 네트워크의 최적화 프로그램을 최적화하도록 meta-learner를 훈련하는 것입니다 (Andrychowicz et al., 2016; Grant et al., 2018).
메타 러닝은 이미지 분류 (Santoro et al., 2016; Finn et al., 2017), 기계 번역 (Gu et al., 2018), 로봇 조작 (Duan et al., 2016; Wang et al., 2016) 등
우리는 대화 영역 적응을 달성하기 위해 평등 모델 위에 메타 학습 알고리즘을 적용 할 것을 제안합니다.
특히 최근에 도입 된 알고리즘 인 MAML (model-agnostic meta-learning) (Finn et al., 2017)을 선택했는데, 이는 서로 다른 모델에 걸쳐 일반화되기 때문입니다.
이 알고리즘은 회귀, 분류 및 정책 경사 강화 학습과 같이 경사 하강 법으로 최적화 된 모든 모델과 호환됩니다.
또한이 알고리즘은 이미지 분류를위한 다른 최첨단 원샷 알고리즘보다 성능이 뛰어납니다.

3 Problem Formulation

Seq2Seq 기반의 대화모델들은 대화 context c을 입력으로 하여 sentence r을 response로 생성한다.
K개의 다른 소스 도메인들에서 풍부한 데이터가 주어지면, 우리는 각 소스 도메인 $S_k$ 에서의 학습 데이터를 가지고 다음과 같이 표기한다.

we also denote the data in the target domain T as:

where N' << N and N' is only 1% of N in our setting

During the training process, we generate a model

where C is the set of context and R is the set of system responses.

적용을 위해, 우리는 model $M_{source}$ 을 target domain 학습 데이터 $D^{T}_{train}$ 에 대해 fine-tune하고 새로운 모델인 $M_{target}$ 을 획득한다.
우리의 첫 번째 목표는 모델이 새로운 target 도메인에서 잘 작동하는 것이다.

4 Proposed Methods

우리는 먼저 MAML 알고리즘과 sequicity 모델을 어떻게 결합하는지 소개한다.
그림 1에서 일반적인 gradient descnet을 보여주고 다음을 포함한다.

(1) combining training data and initialized model,
(2) computing the objective loss and then
(3) using the loss to update the model parameters.

그러나 MAML은 2개의 gradient update steps가 있다.

(1) 우리는 먼저 초기화된 모델 M을 각 소스 도메인 $S_k$ 의 학습 데이터 ( $c^{(k)}$ , $r^{(k)}$ )와 개별적으로 결합한다.
(2) 각 대화 도메인에서, 우리는 loss Loss_k을 계산하고 이를 모든 새로운 임시 도메인 모델 $M'_{k}$ 을 업데이트하는데 사용한다.
(4) 다시 우리는 각 도메인의 data ( $c^{(k)}$ , $r^{(k)}$ )을 사용하고 그것과 대응되는 temporarily 업데이트된 도메인 모델 $M'_{k}$ 으로 새로운 loss Loss'_k을 각 도메인에서 계산한다.
(6) 그리고 모든 새로운 도메인 loss을 더해서 final loss을 얻는다.
(7) 마침내, 우리는 final loss을 사용하여 original model M을 업데이트한다.

다음의 파트에서, 우리는 MAML 알고리즘의 상세 실행과 sequicity 모델을 각각 소개한다.
알고리즘 1에서 설명하듯이, sequicity 모델은 NLU와 대화 관리와 response generation을 seq2seq 방식으로 결합하는데 사용되며 meta-learning은 더 나은 optimization을 위해 적절한 loss function 값을 조정하는 방법이다.
α and β in the algorithm are the learning rate.
섹션 3에서 언급한 듯이, c는 context을 말하고 각 턴에서 모델의 입력이 된다.
sequiciy 모델을 사용하기 위해, 우리는 c을 time t에서 { $B_{t-1}$ , $R_{t-1}$ , $U_t$ }로 포매팅하고 $B_{t-1}$ 은 time t-1에서 previous belief span이고 $R_{t-1}$ 은 last system response이고 $U_t$ 은 current user utterance이다.

belief span이 결국 context, history을 담는 개념인듯?

Sequicity model은 belief spans을 소개하여 모든 정보 slots의 값들을 저장하고 또한 history을 통하여 요청가능한 slot names을 기록한다.

이 방법에서, 모든 history utterance을 RNN에 넣어 context features을 추출하는 대신, 우리는 직접적으로 모든 history contexts의 representation으로써 belief span에 저장된 slots을 다룬다.
정확히 Bt가 무엇을 의미하는가?
즉, discrete한 slot이 Bt가 되는 것인가?
history context 표현하는데 belief span은 좀 더 정확하고 간단하여 매 turn에서 업데이트가 필요하다.
유익하고 요청가능한 slots은 같은 span에 저장되나 ambiguity을 피하기위해 다른 labels을 가진다.

t=1에서 context는 이전의 belief span $B_{0}$ 로써 empty set을 포함하고 이전의 system response $R_{0}$ 로써 empty string을 포함한다.
MAML 알고리즘 뒤의 직관은 몇 개의 internal representations이 다른 것에 비해 trasferable 하다는 것이다.

이것은 몇 internal features가 단일 도메인보다 여러 개 대화 도메인에 적용가능함을 제시한다.

MAML은 gradient descent based model과 호환가능하기 때문에, 우리는 현재 generative 대화 모델 M이라 표기하고 랜덤초기화가 가능하다.
알고리즘에 따르면, 각 소스 도메인 $S_k$ 에서, 학습 데이터의 특정 사이즈가 샘플링된다.
우리는 학습 데이터 ( $c^{(k)}$ , $r^{(k)}$ )을 sequicity 모델에 입력하고 생성된 시스템 response을 얻는다.
우리는 cross-entropy을 loss function으로 모든 도메인에서 적용한다.

각 소스 도메인 $S_k$ 에서, 우리는 gradient descent로 업데이트하고 temporary 모델을 얻는다.

(Finn et al., 2017)과 일치하도록 모델을 one step만 업데이트합니다.

이러한 방법으로, 우리는 M에서 one step 떨어진 각 소스 도메인에서 업데이트된 모델을 가진다.
우리는 미래 연구에서 gradient update의 여러 steps을 고려한다.

그리고나서, 우리는 각 소스 도메인의 같은 학습 데이터를 가지고 업데이트된 모델을 기반으로 loss을 계산한다.

MAML은 원래 test 데이터로 하는데..

이 step 이후에, 우리는 각 도메인에서 meta loss 값을 갖는다.
우리는 meta-learning의 objective function으로 모든 소스 도메인의 업데이트된 loss value을 합한다.

마침내, 우리는 모델을 meta objective function을 최소화하도록 업데이트한다.

MAML에서 일반 gradient와 달리 우리가 모델 업데이트에 사용하는 objective loss는 현재 모델 $M'_{k}$ 로부터 직접적으로 계산되지 않고, temporary model $M'_{k}$ 으로부터 구해진다.

이게 무슨말이냐면, M(target) 모델에서 gradient을 계산해서 업데이트하는 것이 아니다.
대신 M(source) 모델에서 계산한 gradient을 target의 gradient인마냥 업데이트하는 것이다.
여기서 M(source)가 meta-train으로 one-step간 모델이 되는 것이다.

이 동작뒤에 있는 아이디어는 업데이트된 모델으로부터 계산된 loss는 original domains의 변화에 명백히 좀 더 sensitive하므로 우리가 각 도메인의 distinctive features 보다 모든 source domains의 common internal representations에 대하여 배운다.
adaptation step에서, basic interanl representation은 이미 capture되었기 때문에, 모델은 새로운 도메인의 unique features에 민감하다.
결과로, one or a few gradient steps와 최소 데이터의 양은 model이 새로운 도메인에 최적화되기 필요하다.
sequicity 모델은 copying mechanism과 belief span과 결합한 single seq2seq 모델을 기반으로 구성되어 dialog sates을 기록한다.
{ $B_{t-1}$ , $R_{t-1}$ , $U_t$ } 형태의 context c가 주어지면, time t에서 belief span $B_t$ 은 이전의 time t-1에서의 belief span $B_{t-1}$ , history response $R_{t-1}$ 와 utterance $U_t$ 을 기반으로 추출된다.

그리고나서, 우리는 context와 추출된 belief span을 기반으로 response을 생성한다.

$m_t$ 는 간단한 레이블로 response 생성에 도움을 준다.

요청된 정보가 $B_t$ 에 저장된 constraints을 가지는 데이터베이스안에서 사용가능한지 아닌지를 체크한다.
Bt안의 slots들이 constraints가 되어서, 데이트베이스안에서 매칭을 시켜본다는 것인가? 즉 slots이 데이터베이스안에 얼마나 있는가?
$m_t$ 는 세 개의 가능한 값을 가진다: 1) no match, 2) exact match, 3) multiple match.
$m_t$ = "no match"는 시스템이 주어진 제약에서 데이터베이스안에서 match을 찾을 수 없는 것을 말하고, 그러면 시스템은 대화를 처음부터 재시작한다.
$m_t$ = "exact match"는 시스템이 성공적으로 요청된 정보를 검색하고 테스크를 완성한다. 그리고나서 시스템은 대화를 끝낸다.
$m_t$ = "multiple matches"은 여러 개의 items이 모든 제약들과 매칭되고 그래서 더 많은 제약들이 backend database안에서 검색 범위를 줄이기위해 필요하다.

따라서 시스템은 더 많은 정보를 도출하기 위해 질문을 출력합니다.
그림 2에서 구조를 설명하고 어떠한 seq2seq 모델과 호환된다.

간단한 구조를 가지기 위해, 우리는 basic encoder-decoder 구조를 적용한다.
encoder와 decoder 모두 attention mechanism을 가지는 GRU을 적용한다.
response는 belief span과 현재 time의 utterance을 사용하여 생성된다.
모델을 간단하게 하기 위해, 우리는 belief extractor와 response generator을 같은 encoder로 공유한다.
So we reformulate the equations into:

이게 최종 수식 개념
We also need to apply the third attention-based GRU for the response decoding.

response와 utternace가 보통 some word tokens을 공유하기 때문에, sequicity 모델은 또한 copy-attention 메커니즘을 통합한다.
보통, encoded vector을 디코딩하기 위해, 모델은 $v \in V$ 에서 vocabulary $P^{vocab}(v)$ 에 대한 확률을 얻기 위해 softmax을 사용한다.
copy-attention을 통해, 디코더는 vocabulary에대한 단어 생성 확률 distribution뿐만 아니라, $v \in V \cup U$ 에서 입력 sequence $P^{copy}(v)$ 에 대한 word을 copy할 가능성도 고려한다.

입력 context c에 있는 $U_t$ 는 현재 user 발화이다.

그리고나서, 출력 시퀀스에있는 ith 토큰에 해당하는 최종 word v의 확률은 이 두 확률들을 더하여 계산된다. (normalization is performed after the summation)

일반적인 copy 메커니즘하고 똑같

copy probability은 Gu et al. (2016)와 유사하게 계산되며, belief span decoder와 response decoder은 다르다.
For the belief span decoder, the copy probability is calculated as:

where Z is a normalization factor and $u_j$ is the jth word tokens in the utterance $U_t$ .
우리는 오직 $u_j$ 이 target word v와 똑같을 때만 요소를 추가한다.

$\psi(u_j)$ is computed by:

즉 위와 같이 $\psi(u_j)$ 을 계산하고 이의 exponential 값들을 더하고 normalizing하여 $P^{copy}(v)$ 을 구하는 것
$\textbf{h}^{enc}_{j}$ 은 인코더에서의 입력의 j번째 단어에 대한 hidden state이고, $\textbf{h}^{dec}_{j}$ 은 belief span decoder에서의 hiddens state이고 $\textbf{W} \in \mathbb{R}^{d \times d}$ 은 copy attention weight이다.

response 디코더에서, 우리는 utterance $U_t$ 대신 최근에 생성된 belief span $B_t$ 에 대해 copy attention을 적용한다.

두 hidden states 모두 belief span decoder에서 왔다.
즉 belief span decoder와 똑같은 방식인데, self-copy 느낌?

5 Experiment

5.1 Dataset (번역)

최첨단 도메인 적응 알고리즘 인 ZSDG (Zhao and Eskenazi ´, 2018)와의 공정한 비교를 위해 ZSDG를 평가하기 위해 처음 도입 된 데이터 세트 SimDial을 사용합니다.

예제 대화 상자는 부록 A를 참조하십시오.
inform slots이 즉 belief의 slots들로 작용하는 것 같음

SimDial에는 레스토랑, 날씨, 버스, 영화, 레스토랑 슬롯 및 레스토랑 스타일의 총 6 개의 대화 도메인이 있습니다.
레스토랑 슬롯 데이터에는 레스토랑 작업과 동일한 슬롯 유형 및 문장 생성 템플릿이 있지만 슬롯 어휘는 다릅니다.
마찬가지로, 레스토랑 스타일은 레스토랑 도메인에 비해 슬롯이 동일하지만 자연어 생성 (NLG) 템플릿이 다릅니다.
(Zhao and Eskenazi ´, 2018)의 ZSDG 실험 설정에 따라 표시된 소스 도메인으로 레스토랑, 날씨 및 버스를 선택합니다.
각 소스 도메인에 대해 학습, 검증 및 테스트를위한 900, 100, 500 개의 대화가 있으며, 각 대화에는 9 번의 턴이 있고 각 발화에는 평균 13 개의 단어 토큰이 있습니다.
나머지 세 도메인은 평가 용이며 대상 도메인으로 간주됩니다.
ZSDG에서 사용되는 시드 응답은 일련의 시스템 발화 및 해당 레이블입니다.
공정한 비교를 위해 적응 훈련에 동일한 크기의 대화 데이터를 사용합니다.
각 도메인의 적응 훈련에 대해 9 개의 대화 상자 (소스 도메인의 1 %)를 생성하며 각 대화에는 평균적으로 약 8.4 턴이 포함됩니다.
따라서 각 대상 도메인에 대해 도메인 설명으로 사용되는 ZSDG 인 100 개의 시드 응답보다 작은 약 76 개의 시스템 응답이 있다고 가정합니다.
테스트를 위해 각 대상 모델에 대해 500 개의 대화 상자를 사용합니다.
영화는 평가를위한 새 대상 도메인으로 선택됩니다.
영화는 NLG 템플릿과 대화 구조가 완전히 다르기 때문에 표면 수준에서 소스 도메인과 공통 특성을 거의 공유하지 않습니다.
이 소수 학습 설정에서 임의의 결과를 방지하기 위해 모든 결과에 대해 평균 10 회의 임의 실행을보고합니다.
제안 된 방법의 속성을 추가로 탐색하기 위해 원샷 실험을위한 하나의 대화 상자를 생성했습니다.
대화 상자 45 개 (소스 도메인 크기의 5 %), 대화 상자 90 개 (소스 도메인 크기의 10 %) 우리 방법의 적응 효율성.

5.2 Metrics (번역)

실험에는 BLEU 점수, 엔티티 F1 점수 및 적응 시간의 세 가지 주요 메트릭이 있습니다.
처음 두 가지는 Finn에서 사용되는 가장 중요하고 설득력있는 측정 항목으로 새로운 작업에 대한 MAML의 빠른 적응 속도를 철저히 입증했습니다.
하프 치타와 개미가 통합 된 한 단계의 그라데이션 업데이트로 놀라운 성능을 얻을 수도 있습니다.
우리는 또한 우리의 방법과 전이 학습의 기준 사이의 적응 속도를 비교하기 위해 적응에 대한 epoch의 수를 계산하고 싶습니다.
BLEU

We use BLEU score to evaluate the quality of generated response sentences since generating natural language is also part of the task.

Entity F1 Score

For each dialog, we compare the generated belief span and the Oracle one.
Since belief span contains all the slots that constraints the response, this score also checks the completeness of tasks.

Adapting Time

We count the number of epochs during the adaptation training.
We only compare the adaptation with the data of the same size.

5.3 Baseline Models

ZSDG: https://arxiv.org/pdf/1805.04803.pdf
Transfer learning

5.4 Implementation details

For all experiments, we use the pre-trained GloVe word embedding (Pennington et al., 2014) with a dimension of 50.
We choose the one-layer GRU networks with a hidden size of 50 to construct the encoder and decoder.
The model is optimized using Adam (Kingma and Ba, 2014) with a learning rate of 0.003. We reduce the learning rate to half if the validation loss increases.
We set the batch (Ioffe and Szegedy, 2015) size to 32 and the dropout (Zaremba et al., 2014) rate to 0.5.

6 Results and Analysis

7 Conclusion and Future Work

우리는 meta-learning (DAML)을 기반으로하는 domain adaptive 대화 생성 방법을 제안한다.
우리는 end-to-end 학습가능한 대화시스템을 구축하는데, 이는 two-step gradient 업데이트를하여 새로운 도메인에 좀 더 민감한 모델들을 획득하는 것이다.
우리는 우리의 모델을 여러 독립적인 도메인을 가지는 시뮬레이트된 dataset으로 평가한다.
DAML은 Entity F1에서 zero-shot learning 방법과 transfer learning 방법과 비교해서 SoTA 성능을 달성한다.
DAML은 적은 리소스를 가지는 대화 시스템을 학습하는 효과적이고 강인한 방법이다.
DAML은 강화학습기반의 대화 시스템에서 DAML을 적용하는 것과 같이 또한 신뢰할만한 가능성있는 확장을 제공한다.
We also plan to adapt DAML to multi-domain dialog tasks.

Reference

https://www.aclweb.org/anthology/P19-1253.pdf

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-103, Domain Adaptive Dialog Generation via Meta Learning (2019-ACL)

◼️ Comment

0 Abstract

1 Introduction

2 Related Works (번역)

3 Problem Formulation

4 Proposed Methods

5 Experiment

5.1 Dataset (번역)

5.2 Metrics (번역)

5.3 Baseline Models

5.4 Implementation details

6 Results and Analysis

7 Conclusion and Future Work

댓글

댓글 쓰기