◼ Comment

아이디어는 나쁘지 않은 것 같다. 여기서도 언급하고 비교한 Gray 논문하고 비슷하면서도 다르다.
이 논문은 커리큘럼 러닝에 초점이 맞춰져있고, 이를 통해 모델이 순차적으로 어려운 데이터에 대해 학습하게 하겠다는 것이다.
왜냐하면 response 데이터가 레이블은 단순히 0과 1로 구분지어져있는데 실제로 난이도가 각각 다르기 때문이다.
난이도는 사전에 간단히 학습하는 랭킹 모델로 스코어를 내고 이로 sorting하는 식이다.

사실 여기서 걍 self-model 써도 될 거 같은데 굳이 간단한 모델로 하는 이유가 뭘까?
실험결과로 랭킹모델이 성능이 어느정도 넘어가면 매칭모델에 영향을 덜 준다고 하는데 진짜로 그런지 뒷받침하기에는 근거가 약하다. (실험이 적어서)
따라서 SoTA 모델을 랭킹모델로 쓰는게 낫지 않을까 싶은데..?

난이도에 개념은 positive와 negative의 측면에서 두 개가 있다.

positive: IC
negatve: CC
로 생각하면 되고, 랭킹모델은 같은걸 쓰나 순위 매기는 법이 score 역의 관계라고 볼 수 있다.

0 Abstract

우리는 대화 응답 선택에서 매칭 모델을 학습하는 연구를 한다.
최근 랜덤 negative samples로 학습되는 모델들을은 실제 시나리오들에서 이상적이지 않다는 것으로부터 영감을 받았고, 우리는 hierarchical curriculum learning을 제안한다.

hierarchical curriculum learning framework은 매칭모델이 'easy-to-difficult' 스키마로 학습한다.

우리의 학습 프레임워크는 두 가지 보완적인 커리큘렴으로 구성된다.

(1) corpus-level curriculum (CC)
(2) instance-level curriculum (IC)

CC에서, 모델은 대화 컨텍스트와 response candidate 사이의 점진적으로 매칭 clues을 찾는 능력이 증가한다.
IC에서는, 이것은 점진적으로 대화 context와 response candidate 사이의 mismatching 정보를 식별하는 모델 능력을 강화시킨다.
세 가지 벤치마크 데이터세트에서 3가지 SoTA 매칭 모델에 적용한 실험적인 결과들은 제안한 학습 프레임워크가 여러 evaluation metrics에서 모델 성능을 향상시킴을 입증한다.

1 Introduction

인지 대화 시스템을 구축하는 것은 인공지능의 오랜 목표이고 최근에 많은 관심을 받고있다.
이러한 대화 시스템들을 구축하는데 중요한 챌린지는 response selection 문제이고, 즉, response 후보들의 셋과 대화 컨텍스트가 주어졌을 때 가장 좋은 response을 선택하는 것이다.
이 문제를 해결하기 위해, 다른 매칭 모델들은 대화 컨텍스트와 response candidate 사이의 matching 정도를 측정하도록 개발되었다.
그들의 차이점에도 불구하고, 대부분의 연구들은 모델은 간단히 휴리스틱하게 구축한 데이터로 학습이 된다.
각 컨텍스트에서, human-written response는 positive로 간주되고 (즉, 적절한 응답) 다른 대화 컨텍스트에서의 response는 negatives (즉, 부적절한 응답)으로 간주된다.
실제로, negative response들은 랜덤샘플링되고 학습 objective는 positive response 점수가 negative들보다 높도록 보장한다.
최근에, 몇 연구자들은 랜덤으로 negative responses을 샘플링하는 것은 너무 사소하다고 우려를 표했다. (즉, 대화 맥락과 완전히 무관함).
사소한 negative responses로 학습된 모델들은 real-world 시나리오들에서 강한 distractors을 핸들링하는데 실패할 수 있다.
본질적으로, 문제는 context-response 매칭 정도의 다양성에 대한 무시로부터 비롯된다.

다른 말로, 모든 랜덤 responses은 다른 distracting 강점들에 상관없이 동일한 negative로 간주된다.
예를 들어, 테이블 1에서 두 명의 화자들과 두 개의 negative responses (N1, N2)가 소개된다.
N1에서는, TV 쇼 토픽과 부자연스럽게 벗어나기 때문에 쉽게 적절성을 무시할 수 있다.
반면에 N2는 강한 distractor로 context가 중요하게 오버랩된다. (e.g., fantasy series and Game of Thrones).
면밀히 관찰해야지만, 우리는 N2가 대화와 일관성을 유지하지 않는 것을 알 수 있다. (즉, 이것은 TV시리즈의 즐거운 속성보다는 왕자의 게임의 배우에 대한 병렬적인 토론이다.)

게다가, 우리는 positive side에서도 비슷한 현상을 관측한다.

다른 학습 context-response pairs에 대해, pairwise 관련성은 다르다.
테이블 1에서, 두개의 posivie responses (P1, P2)는 주어진 컨텍스트로부터 제공된다.
P1은 쉽게 컨텍스트의 응답으로써 적절함을 쉽게 확인할 수 있다.
P2에선, TV 시리즈의 즐거운 속성에 대해 설명하지만, 이것은 명백하게 clues들을 나타내지 않는다. (어휘적으로 컨텍스트와 오버랩되지 않는다는 것)
그래서, P2을 올바르게 식별하기 위해, 컨텍스트와의 관계는 모델에의해 신중하게 추론되어야 한다.

위의 관찰로부터 영감을 받아, 이 연구에서 우리는 curriculum learning (CL)의 아이디어를 적용한다.
CL을 적용하는 키는 모든 학습 샘플들에 대해 적절한 학습 스키마를 구체화하는 것이다.
해당작업의 task의 특성을 분석하여, 우리는 면밀하게 hierarchical curriculum learning (HCL) 프레임워크를 디자인한다.
구체적으로, 우리의 학습 프레임워크는 두 가지 보완적인 curriculum 전략들로 구성된다.

corpus-level curriculum (CC) and instance-level curriculum (IC)으로 response selection의 두 가지 별개의 측면을 커버한다.

CC에서, 모델은 점진적으로 context-response 긍정적인 쌍의 eays-to-difficult arrangement을 통하여 matching clues을 찾는 능력이 늘어난다.
IC에서, 우리는 그들의 distracting 강도에 따른 모든 negative responses을 sort하여서 모델의 mismatching information을 식별하는 능력이 점진적으로 강하도록 한다.
주목할만한 것은, 우리의 학습 프레임워크는 mathicng models의 선택과 독립적이다.
포괄적인 평가에서, 우리는 우리의 접근법을 대표적인 3가지 matching models에 적용한다. (SoTA 포함해서)
3가지 벤치마크 데이터세트에 대한 결과는 제안한 learning 프레임워크가 모든 평가 metrics에서 성능향상을 이끈다.
간단히 말해서 우리의 기여는 다음과 같이 요약될 수 있습니다.

(1) 우리는 hierarchical curriculum learning 프레임워크를 제안하여 대화 response selection의 테스크를 해결한다.
(2) 3가지 벤치마크 데이터세트에서의 실험적인 결과들은 우리의 접근법이 다양한 matching models의 성능을 향상시킨다. (현 SoTA을 포함해서)

2 Background

데이터세트 D = {(ci , ri)}가 주어질때, matching model s(·, ·)는 올바르게 대화 컨텍스트 ci에 대해 positive response ri을 학습한다.

R-i는 negative responses이다.

The learning objective is typically defined as

where m is the number of negative responses associated with each training context-response pair.
즉 loss가 작아지려면, s(ci, ri)가 커져야하고, s(ci, R)이 작아져아하는 개념

In most existing studies (Wu et al., 2017; Zhou et al., 2018; Gu et al., 2019), the training negative responses R−i are randomly selected from the dataset D.
Recently, Li et al. (2019) and Lin et al. (2020) proposed different approaches to strengthen the training negatives.
테스트 때, 어떠한 context-response (c,r)에 대해, 모델은 score s(c,r)을 pairwise matching degree을 반영해서 줄 수 있다.

따라서 user은 response selection의 점수에따라 response candidates의 set을 랭킹매길 수 있다.

3 Methodology

3.1 Overview

우리는 hierarchical curriculum learning (HCL) 프레임워크를 뉴럴 매칭 모델 학습을 위해 제안한다.
이는 두 가지 보완적인 커리큘렴으로 구성된다.

(1) corpus-level curriculum (CC)
(2) instance-level curriculum (IC)

그림 1은 두 전략 사이의 관계를 설명한다.
CC에서, 학습 context-response 쌍에서 적은 어려움이 어려운 쌍보다 먼저 모델에 제공된다.

이 방법은, 모델이 점진적으로 response candidate에서 포함된 matching clues을 찾는 능력이 증가한다.

IC에서, 이것은 context-response 각 학습 쌍과 연관된 negative responses의 어려움을 컨트롤한다.

쉬운 negatives에서 시작하여, 모델은 점진적으로 response candidate에서 mismatching information을 (e.g., semantic incoherence) 식별하는 능력을 강화한다.

제안한 접근법의 설명은 다음 섹션에서 자세히 다룬다.

3.2 Corpus-Level Curriculum

데이터세트 D = {(ci , ri)}가 주어졌을 때, corpus-level curriculum (CC)는 다른 학습 context-response pairs을 ordering을 재배열한다.
모델은 먼저 덜 어려운 pairs로부터 쉬운 matching clues을 찾도록 학습이 된다.
학습 과정에서, 어려운 케이스들은 모델이 적은 명백한 matching signals을 학습하도록 제시된다.
두개의 예제가 그림 1의 왼쪽 파트에서 보여준다.
쉬운 쌍은, context와 positive response가 의미론적으로 연관성있을 뿐 아니라 서로 lexically 오버랩된다. (즉, TV series and Game of Thrones)

이러한 mathing clues은 모델이 학습하기에 간단하다.

어려운 케이스에서는, positive response는 오직 numerical reasoning을 통해서만 식별될 수 있어서 학습하기 어렵다.
Difficulty Function.

각 학습 context-response pair (ci, ri)의 어려움을 측정하기 위해, 우리는 pre-trained ranking model G(·, ·) (§3.4)을 적용해서 relevance score G(ci , ri)을 계산한다.
여기서 높은 G(ci , ri) 점수는 ci와 ri 사이의 높은 연관을 보여준다. (= positive안 response일 수록 G가 높고 그럼 d(난이도)는 낮다, 즉 positive 관점)
그리고나서, 각 (ci , ri) ∈ D에서, 그것의 corpus-level 어려움 $d_{cc}(c_i, r_i)$ 은 다음과 같이 정의된다.
여기서 $d_{cc}(c_i, r_i)$ 는 [0, 1]로 normalizing 된다.
여기서 낮은 어려움 점수는 (ci, ri)가 모델이 학습하기 쉽다는 것을 가리킨다.

Pacing Function.

학습에서, 학습 context-response pairs을 적절한 어려움으로 선택하는 것은, 우리가 corpus-level pacing function $p_{cc}(t)$ 으로 정의한다, 이는 easy부터 hard 인스턴스까지 학습의 pace을 컨트롤하는 것이다.
즉, time step t에서 $p_{cc}(t)$ 는 난이도의 upper limit을 표현하고, 모델은 오직 training instances (ci, ri)을 사용하도록 허락된다.

여기서 (ci, ri)의 corpus-level 어려움 score $d_{cc}(c_i, r_i)$ 는 $p_{cc}(t)$ 보다 낮다.

In this work, we propose a simple functional form for $p_{cc}(t)$ 1 as

즉 시간이 일정 부분(T) 지나기 전까지는, 난이도가 낮은 instance만 학습한다는 것이다. T가 지나면 난이도 상한은 없다. 즉 초반에는 쉬운 데이터에 대해서만 학습하다가, 일정 시간 지나면 전체 데이터에 대해 학습한다는 것!
여기서 $p_{cc}(t)$ 는 사전 정의된 초기 값이다.

training warm up stage (first T steps)에서, 우리는 기본적인 매칭 모델을 학습 데이터의 쉬운 subset에 대해 학습시킨다.
여기 subset에서, 모든 샘플들의 난이도는 $p_{cc}(t)$ 보다 낮다.
$p_{cc}(t)$ 가 1.0이 되고 난후 (step T), corpus-level curriculum은 완성되고 모델은 자유롭게 모든 데이터세트에 접근할 수 있다.
In Figure 2(a), we give an illustration of the corpus-level curriculum.

3.3 Instance-Level Curriculum

CC의 보완으로, instance-level curriculum (IC)는 negative responses의 어려움을 컨트롤한다.
arbitray training context-response pair (ci, ri)에 대해, 관련있는 negative responses들은 학습 세트에서 어떠한 responses rj (j != i)가 될 수 있고 rj의 난이도는 다양하다.
Some examples are presented in the right part of Figure 1.
우리는 낮은 난이도를 가지는 negative responses들은 그들이 종종 명백히 topic에서 벗어나기 때문에 언제나 간단하게 발견할 수 있다.
더 어려운 negatives에 대해, 모델은 컨텍스트와 그들 사이의 fine-grained semantic incoherence(일관성)을 식별할 필요가 있다.
IC의 주요 목적은 학습 프로세스의 상태를 기반으로 적절한 난이도를 가지는 negative responses들 선택하는 것이다. (negative 관점)
맨 처음에는, negative responses은 랜덤으로 전체 학습 데이터세트에서 선택되고 그들 중 대부분은 구별하기 쉽다.
훈련될수록, IC는 점진적으로 높은 난이도를 가진 responses들로부터 샘플링하여 negative responses의 난이도를 증가시킨다. (즉, 훈련 데이터의 더 어려운 하위 집합에서)
이 방법에서, 모델의 mismatching 정보를 찾는 능력은 점진적으로 강화되고 실제 시나리오들에서 강한 distractors을 핸들링할 때 더욱 robust해질 것이다.
Difficulty Function.

특정한 training instance (ci, ri)가 주어졌을 때, 우리는 임의의 response rj (j != i)의 난이도를 내림차순으로 relevance score의 정렬된 list로 순위를 매긴다.
이 형식에서, 가장 높은 연관성 점수를 가지는 response rh는 rank 1이고 (즉 $r_h = \text{max}_{r_j \in D, j \neq i} (G(c_i, r_j))$ ) dic(ci, rh) = 1이다.
가장 낮은 연관성 점수를 가지는 response rl ( $r_l = \text{min}_{r_j \in D, j \neq i} (G(c_i, r_j))$ )은 |D|의 순위를 가진다. (마지막 순위)
여기서 smaller rank는 context ci에 대해 가장 연관성이 깊은 negative response을 뜻하고, 그래서 모델이 구별하기 어렵다는 것이다. (가장 positive같은 negative)
CC와 똑같은 방법인데 역순일 뿐

Pacing Function.

CC와 유사하게, IC에서 easy to difficult negative responses의 학습 페이스는 instance-level pacing function $p_{ic}(t)$ 로 컨트롤된다.
이것은 negative responses가 샘플링되는 sampling space (log scale)의 사이즈를 조정한다.
training instance (ci, ri)가 time step t에서 학습될 때, responses rj (j != i)로부터 샘플링된 negative examples의 rank는 $p_{ic}(t)$ 보다 작다. (즉, dic(ci,rj) <= 10^{ $p_{ic}(t)$ }),

즉 학습 데이터의 subset으로부터 샘플링된 negative responses들은 top-10^{ $p_{ic}(t)$ }의 관련있는 responses로 구성된다.

The smaller the pic(t) is, the harder the sampled negatives will be.
In this work, we define the function pic(t) as
T는 corpus-level pacing function $p_{cc}(t)$ 와 같다.
$k_0 = log^{|D|}_{10}$ 이고 이는 training의 시작을 의미하고, negative responses은 전체 학습 세트 D에서 샘플링 된다.
kT는 하이퍼파라미터로 k0보다 작다.
After pic(t) becomes kT (at step T), the instance-level curriculum is completed.
For the following training steps, the size of the sampling space is fixed at 10kT.
An example of pic(t) is depicted in Figure 2(b).

3.4 Hierarchical Curriculum Learning

Model Training.

우리의 학습 프레임워크는 corpus-level과 instance-level 커리큘럼을 같이 적용한다.
각 학습 step에서 우리는 training data을 다음과 같이 배치로 만든다.
먼저, 우리는 corpus-level pacing function $p_{cc}(t)$ 에 따라서 positive context-response pairs을 선택한다.
그리고나서, 선택된 배치의 각 instance에 대해, 우리는 instance-levle pacing function pic(t)에 따른 관련있는 negative examples을 샘플링한다.
우리의 학습 프레임워크의 자세한 것은 Algorithm 1에서 설명한다.

Fast Ranking Model.

식 (2)와 (3)에서 설명했듯이, 우리의 프레임워크는 ranking model G을 요구하고, 이는 효과적으로 수백만의 context-response 조합의 pairwise relevance을 측정한다.
이 연구에서, 우리는 G을 non-interaction 매칭 모델로 dual-encoder 구조로 우리는 모든 contexts와 responses offline으로 미리 계산하고 cache에 저장한다.
모든 context-response pair (c,r)에 대해 그것의 pairwise relevance G(c,r)은 다음과 같이 정의된다.
where Ec(c) and Er(r) are the dense context and response representations produced by a context encoder Ec(·) and a response encoder Er(·).
The encoders can be any model, e.g., LSTM (Hochreiter and Schmidhuber, 1997) and Transformers (Vaswani et al., 2017).
즉 미리 학습한 매칭 모델을 이용한 것이 아니고 sentence-encoder들을 이용한 것이다.

Offline Index.

ranking 모델이 in-batch negative objective을 사용해서 같은 response selection dataset D에 대해 학습되고 난 후, 우리는 dataset D가 포함한 모든 contexts와 responses의 dense representations을 계산한다.
즉 sentence-encoder을 한 번 학습시킨다는 것
그리고나서, 식 4에서 설명한 것 처럼, contexts와 responses의 가능한 모든 조합들에 대해 연관성 점수는 쉽게 내적을 통해 계산된다.
이 step 이후에, 우리는 모든 가능한 조합들의 corpus-level과 instance-level 난이도를 메모리 cahce에 빠른 학습을 위해 저장한다.

4 Related Work

Dialogue Response Selection.
Curriculum Learning.

5 Experiment Setups

5.1 Datasets and Evaluation Metrics

We test our approach on three benchmark datasets.
Douban Dataset.

This dataset (Wu et al., 2017) consists of multi-turn Chinese conversation data crawled from Douban group3 . The size of training, validation and test set are 500k, 25k and 1k. In the test set, each dialogue context is paired with 10 candidate responses. Following previous works, we report the results of Mean Average Precision (MAP), Mean Reciprocal Rank (MRR) and Precision at Position 1 (P@1). In addition, we also report the results of R10@1, R10@2, R10@5, where Rn@k means recall at position k in n candidates.

Ubuntu Dataset.

This dataset (Lowe et al., 2015) contains multi-turn dialogues collected from chat logs of the Ubuntu Forum. The training, validation and test size are 500k, 50k and 50k. Each dialogue context is paired with 10 response candidates. Following previous studies, we use R2@1, R10@1, R10@2 and R10@5 as evaluation metrics.

E-Commerce Dataset.

This dataset (Zhang et al., 2018) consists of Chinese conversations between customers and customer service staff from Taobao4 . The size of training, validation and test set are 500k, 25k and 1k. In the test set, each dialogue context is paired with 10 candidate responses. Rn@k are employed as the evaluation metrics.

5.2 Baseline Models

In the experiments, we compare our approach with the following models that can be summarized into three categories.
Single-turn Matching Models.

이 유형의 모델은 모든 대화 컨텍스트를 하나의 긴 발화로 취급한 다음 RNN, CNN, LSTM, Bi-LSTM, MV-LSTM 및 Match-LSTM을 포함하여 컨텍스트와 응답 후보 간의 관련성 점수를 측정합니다.

Multi-turn Matching Models.

대화 컨텍스트를 하나의 단일 발화로 처리하는 대신 이러한 모델은 DL2R, Multi-View, DUA, DAM, MRFN, IOI, SMN 및 MSN을 포함하여 다양한 발화의 정보를 보다 정교한 방식으로 집계합니다.

BERT-based Matching Models.

사전 훈련된 언어 모델(Devlin et al., 2019)의 최근 발전을 감안할 때 Gu et al. (2020)은 응답 선택 작업을 위해 BERT를 적용한 SA-BERT 모델을 제안했으며 Douban 및 Ubuntu 데이터 세트에 대한 현재 최첨단 모델입니다.

5.3 Implementation Details

모든 실험들에서, 우리는 corpus-level pacing function $p_{cc}(t)$ 의 pcc(0)값을 0.3으로 설정하고, 이는 모든 모델들이 0.3보다 낮은 corpus-level 난이도를 가지는 context-response pairs로 학습이 시작된다는 것이다.
instance-level pacing function pic(t)에 대해, kT의 값은 3으로 설정하고, 이뜻은 IC가 완료된 후, 각 학습 instance의 negative responses는 top-10^3 관련있는 responses로부터 샘플링된다는 것이다.
In the experiments, each matching model is trained for 40, 000 steps with a batch size of 128, and we set the T in both pcc(t) and pic(t) as half of the total training steps, i.e., T = 20, 000.
To build the context and response encoders in the ranking model G(·, ·), we use a 3-layer transformers with a hidden size of 256.
제안된 학습 프레임워크를 테스트하기 위해 최신 SA-BERT와 함께 두 가지 대표적인 모델(SMN 및 MSN)을 선택합니다.
실제 테스트 환경을 더 잘 시뮬레이션하기 위해 부정적인 응답의 수(식 (1)의 m)는 5로 설정됩니다.

6 Result and Analysis

6.1 Main Results

테이블 2는 Douban, Ubuntu, and E-Commerce 데이터세트에 대한 결과이고, X+HCL은 모델 X에 제안된 HCL의 학습을 한 것이다.
우리는 HCL이 3가지 매칭모델에 대하 모든 평가 메트릭에서 성능향상을 보고, 이것이 우리의 접근법의 견고성과 보편성을 보여준다.
우리는 또한 HCL을 학습해서, model MSN w/o pre-trained LM은 SoTA 모델 using pre-trained LM (SA-BERT)을 Douban 데이터세트에서 능가함을 관측한다.
이러한 결과는 훈련 전략이 이전 연구에서 충분히 탐색되지 않았지만 유능한 응답 선택 모델을 구축하는 데 매우 결정적일 수 있음을 시사합니다.

6.2 Effect of CC and IC

CC와 IC의 개별적인 효과를 밝히기 위해, 우리는 CC와 IC 둘다 삭제하여 Douban 데이터세트에대한 다른 모델들을 학습한다.
실험 결과는 테이블 3에서 보여주고, 우리는 CC와 IC가 따로 사용했을 때, 전체 성능의 긍정적인 기여를 하는 것을 확인한다.
IC의 활용이 CC의 활용보다 큰 효과를 보여준다.

이 관측은 (IC) mismatching 정보를 식별하는 것이 optimal 성능을 달성하는데 중요한 요소임을 제시한다.

그러나 최적의 성능은 CC와 IC가 결합되었을 때고, 이는 서로가 상호보완적인 것을 가리킨다.

6.3 Contrast to Existing Learning Strategies

다음으로 우리의 접근 방식을 최근에 제안된 다른 학습 전략과 비교합니다.
우리는 각각 Li(2019), Penha(2020) 및 Lin(2020)의 접근 방식을 나타내기 위해 Semi, CIR 및 Gray를 사용합니다. 여기서 Gray는 최신 기술입니다. (The world)
Douban 및 Ubuntu 데이터 세트에 대한 실험을 수행하고 세 가지 일치 모델의 실험 결과가 표 4에 나열되어 있습니다.
결과에서 우리의 접근 방식이 모든 설정에서 다른 학습 전략보다 일관되게 우수함을 알 수 있습니다.
우리의 접근 방식의 성능 향상은 단순성을 감안할 때 훨씬 더 놀랍습니다.
추가 생성 모델을 실행하거나(Lin et al., 2020) 다른 에포크에서 음수 샘플을 다시 채점할 필요가 없습니다(Li et al., 2019).

6.4 Further Analysis on HCL

이 부분에서는 CC의 초기 난이도 pcc(0)와 IC의 커리큘럼 길이 kT를 포함하여 주요 하이퍼파라미터가 HCL의 성능에 어떤 영향을 미치는지 연구합니다.
또한 다른 순위 모델 선택의 효과도 조사합니다.
Initial Difficulty of CC.

Curriculum Length of IC.
Ranking Model Architecture.

최근에, 우리는 랭킹 모델 구조의 선택의 효과를 조사한다.
우리는 식 4에서 Transformers 모듈 Ec와 Er을 교체해서 두 가지 랭킹 모델 변형을 구축한다.
첫 번째 케이스에서, 우리는 3-layer BiLSTM, hidden size 256을 사용한다
두 번째 케이스에서 ,우리는 BERT-base 모델을 사용한다.
그리고나서, 우리는 매칭 모델들을 제안한 HCL을 사용해서 다른 랭킹모델의 scoring을 기반으로 학습한다.
The results on Douban dataset are shown in Table 5.
우리는 먼저 다른 랭킹 모델들의 성능을 직접 best response을 선택하도록 해서 비교한다.
The results are shown in the “Ranking Model” row of Table 5.
3가지 변형들 사이에서, BERT가 가장 좋은 성능을 나타내나, 여전히 정교한 매칭 모델들에 비해 정확도가 낮다.
두 번째로, 우리는 매칭 모델에 대한 다른 랭킹 모델의 효과를 성능에 대해 연구한다.
우리는 다른 매칭모델들에 대해, Transformers와 BERT는 비교할만한 성능을 보여주지만, BiLSTM는 훨씬 나쁜 결과를 보여주낟.
이것은 다음의 결과를 이끈다.

랭킹모델의 선택은 전체 결과에 영향을 주지만, 랭킹 모델이 특정 성능을 달성하고 나면, 랭킹모델의 개선이 매칭 모델들의 성능 향상에 필수적인 것은 아니다.

7 Conclusion

이 연구에서, 우리는 새로운 hierarchical curriculum learning 프레임워크를 멀티턴 대화에서 response 선택 모델에 대해 제안한다.
학습동안, 제안된 프레임워크는 동시에 corpus-level과 instance-level 적용한 학습 프로세스의 상태를 기반한 동적으로 적절한 학습 데이터에 대한 커리큘럼을 가진다.
광범위한 실험들은 두 가지 벤치마크 데이터세트에 대한 분석이고, 우리의 접근법이 다양하게 강한 매칭 모델들에 대해 모든 평가 메트릭에서의 성능을 향상시킨다.

Reference

https://aclanthology.org/2021.acl-long.137.pdf

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-129, Dialogue Response Selection with Hierarchical Curriculum Learning, ACL-2021

◼ Comment

0 Abstract

1 Introduction

2 Background

3 Methodology

3.1 Overview

3.2 Corpus-Level Curriculum

3.3 Instance-Level Curriculum

3.4 Hierarchical Curriculum Learning

4 Related Work

5 Experiment Setups

5.1 Datasets and Evaluation Metrics

5.2 Baseline Models

5.3 Implementation Details

6 Result and Analysis

6.1 Main Results

6.2 Effect of CC and IC

6.3 Contrast to Existing Learning Strategies

6.4 Further Analysis on HCL

7 Conclusion

댓글

댓글 쓰기