◼ Comment

이 논문은 MRS 모델 학습하고, 이를 Reward model로 사용해서 RL로 생성 모델 학습한 것이다.
강점

생성 모델의 새로운 학습 방법 제시 (reward model을 활용한 RL) 저자들은 response selection 을 response generation task의 reward model로 활용하는 것으로, 주어진 데이터세트의 활용을 극대화한다.
논문은 Cross entropy보다 강력한 CORAL loss를 소개한다.
광범위한 실험을 통해 제안한 모듈이 효과적임을 보여준다.

약점

논문의 동기는 cross entropy가 single valid response만을 학습하는 것으로 부터 시작한다. 하지만 실험결과가 모델이 multiple valid response을 출력한다는 것을 입증하지 못하는 것 같다.
reward model에 대한 고찰이 더욱 더 필요하다. Table 2는 다양한 reward model에 대한 결과를 보여주지만, 어떠한 reward model이 전체적으로 효과적인지를 보여주지 못한다. 저자들은 BERT의 [CLS] 토큰을 이용하여 학습을 할 때, negative sample을 랜덤 샘플링을 통해 구성한다. 예를들어, 이전의 response selection model의 연구들에서 사용하는 다양한 negative response을 샘플링하는 전략을 시도해볼 필요가 있다.
cross entropy는 loss을 위한 하이퍼파라미터가 필요하지 않다. 하지만 CORAL loss는 Figure 3과 같이 하이퍼파라미터에따라 성능의 변화가 크다. 즉 제안한 방법은 학습될 생성모델의 도메인에 따라 이러한 하이퍼파라미터에 대한 탐구가 선행되어야 하는 단점이 존재한다.

기타

베이스라인에 대한 사이즈 언급이 필요하다. Table 1에서 비교되는 모델들의 사이즈가 다른 것으로 보여지는데, 사이즈를 동일하게 세팅하고 실험해볼 필요가 있다.
나는 평가 메트릭으로 최근 잘 알려진 GPT4-Eval을 추천한다. 왜냐하면 현재 메트릭은 너무 많아서 특정 모델이 전체적으로 좋은지 판단하기가 어렵다.
저자들은 테이블 4, 5을 언급해야한다.

ABSTRACT

대화 생성은 본질적으로 불확실한 작업이며 여러 가지 유효하고 의미론적으로 다양한 응답이 가능합니다.
그러나 인기 있는 크로스 엔트로피 손실은 단일 유효한 응답을 가정하며, 따라서 대화 이력과 일치하지 않는 응답에 처벌을 가합니다.
이에 대한 제한 사항을 해결하기 위해 본 논문에서는 대화 이력을 효과적으로 활용하여 지금까지 주어진 대화 이력에 완벽히 유효한 응답을 페널티를 주지 않는 CORAL을 제안합니다.
CORAL은 대화 생성 작업을 강화 학습 관점에서 바라본 보상 함수를 기반으로한 혁신적인 손실 함수로, 응답 검색 모델의 도움으로 대화 이력과 응답이 주어졌을 때 응답의 유효성을 추정합니다.
더 나아가 CORAL 손실은 대화 이력과 생성된 응답의 함수이기 때문에 관련성, 참여도 및 일관성과 같은 품질을 최적화할 수 있습니다.
견고성과 적용 가능성을 보장하기 위해, 우리는 다양한 강화 학습 훈련 알고리즘과 보상 함수의 다양한 변형을 사용하여 CORAL을 테스트했습니다.
두 가지 벤치마크 데이터셋에서의 광범위한 실험 결과는 최고의 크로스 엔트로피 기반 기준 모델 대비 MaUde와 DEB에서 평균적으로 각각 4.38%와 2.22%의 개선된 성능을 보여줍니다.

1 INTRODUCTION

대화 응답 생성은 특히 오픈 도메인 대화에서는 불확실성이 내재된 작업입니다.
자유롭고 캐주얼하게 대화할 때, 주어진 대화 맥락에 따라 많은 유효하고 논리적인 응답이 가능합니다.
인기 있는 크로스 엔트로피 손실로 훈련된 시퀀스 투 시퀀스 학습 모델은 대화 응답 생성 작업의 이러한 내재된 불확실성을 자연스럽게 처리할 수 있을까요?
이러한 모델에서 생성된 응답은 맥락에 따라 달라지지만, 크로스 엔트로피 손실 계산은 오직 라벨과 일치하는 응답에 유리하며 (잘못된) 라벨과 다른 응답을 페널티를 부여하며, 그렇기에 맥락과 관련이 높은 다른 유효한 응답에 대한 솔루션 공간 탐색을 효과적으로 방해합니다.
이러한 크로스 엔트로피 손실을 사용한 라벨 지향적인 훈련은 대화 생성에 해로운 것으로 여겨지며, 따라서 NLP 커뮤니티 내에서는 크로스 엔트로피 손실이 오픈 도메인 대화 생성 모델을 훈련하기 위한 가장 적합한 손실 함수가 아니라는 것이 널리 받아들여지고 있습니다.
크로스 엔트로피 손실로 인해 라벨과 다른 맥락 관련 응답에 부과되는 잘못된 페널티를 피하는 방법은 무엇인가요?
자연스러운 접근 방식은 대화 맥락과 일치하는 모든 응답을 선호하는 손실 함수를 설계하는 것입니다.

이러한 손실 함수를 설계하고 사용하여 사용자가 기대하는 품질을 극대화하는 대화 생성 모델을 훈련하는 방법은 무엇일까요?
다행히 이전 연구들에서는 대화 응답 품질에 대한 인간의 인식 점수가 대화 응답 검색 모델의 점수와 상관 관계가 있다는 것이 보였습니다.

응답 검색 모델은 양성 맥락-응답 쌍과 무작위로 생성된 쌍을 구별하기 위해 훈련됩니다.

따라서 훈련된 응답 검색 모델은 입력 맥락과 응답 쌍 간의 관련성을 자동으로 측정하는 방법을 학습합니다.

이러한 발견을 바탕으로, 저희는 대화 생성 모델을 훈련하기 위한 새로운 손실 함수인 Contextual Response Retrievability (CORAL)를 소개합니다.

이 손실 함수는 그림 2에 나와 있는 Response Retrievability Reward (𝑅3)라고 불리는 응답 검색 모델의 점수를 최적화합니다.
저희가 제안하는 학습 프레임워크는 입력 맥락이 주어졌을 때 생성된 응답에 대해 𝑅3 보상을 최적화하기 위해 강화 학습 (RL)을 사용합니다.

CORAL의 효과를 평가하기 위해 우리는 오픈 도메인 대화 생성을 위해 DailyDialog 데이터 세트 및 도메인별 대화 생성을 위해 DSTC7-Ubuntu 데이터 세트를 사용하여 transformer 기반 Seq2Seq 모델을 훈련합니다.
또한 자동 메트릭 및 인간 평가를 통해 최첨단 크로스 엔트로피 기반 Seq2Seq 모델 및 다양한 다른 기준과 성능을 비교합니다.
우리의 기여는 다음과 같습니다.

우리는 컨텍스트와 응답 쌍에 대한 인간 선호도의 추정치를 직접 최적화하는 CORAL 손실 함수를 제안합니다. 이는 명시적으로 컨텍스트-응답 호환성을 최적화하는 첫 번째 방법입니다.
RL 설정에서 CORAL 손실을 사용하여 향상된 seq2seq 대화 모델을 훈련하는 방법을 제시합니다.
다양한 RL 훈련 알고리즘과 보상 함수 변형을 사용하여 두 가지 벤치마크 데이터셋에 대한 광범위한 실험에서 CORAL로 훈련된 모델이 교차 엔트로피 또는 그 변형을 사용한 강력한 기준 모델보다 우수한 성능을 보여줍니다..

논문의 나머지 부분은 다음과 같이 구성됩니다.
우리는 관련된 관련 작업을 섹션 2에서 논의합니다.

우리는 섹션 3에서 응답 검색 가능성 보상 (R3) 함수를 설계하고, CORAL 손실 함수와 CORAL 손실을 사용한 새로운 RL 기반 훈련 알고리즘을 제안합니다.
우리의 제안된 방법을 제시한 후에는 섹션 4에서 교차 엔트로피 손실과 CORAL 손실 간의 유사점과 차이점을 더 자세히 비교합니다.
섹션 5에서는 모델 설정, 데이터셋, 기준선 및 평가 메트릭을 논의합니다.
우리는 섹션 6에서 양적 및 질적 결과 및 분석을 제시합니다.
마지막으로 섹션 7에서 간결한 요약을 통해 결론을 도출합니다.

2 LITERATURE REVIEW

Sequence-to-Sequence (Seq2Seq) 모델의 초기 성공을 바탕으로, Ritter 등 [24]은 크로스 엔트로피 손실을 사용하여 오픈 도메인 대화 (잡담) 생성 모델을 훈련하기 위한 유사한 접근 방식을 제안했습니다.
그러나 이러한 바닐라 접근 방식은 출력 생성에서 토큰 반복, 컨텍스트를 무시한 일반적인 답변 등 여러 가지 단점을 가지고 있었습니다.
대화 생성 작업을 위한 바닐라 Seq2Seq 아키텍처의 이러한 단점을 해결하기 위해 몇 년 동안 다양한 해결책이 제안되었습니다.
Santra 등 [29], Serban 등 [32]은 컨텍스트의 계층적 표현을 학습하기 위한 방법을 제안했습니다.
Bao 등 [3], Serban 등 [33], Shen 등 [34], Zhao 등 [49]은 과제의 확률적 특성을 포착하기 위해 잠재 변수 모델을 개발했습니다.
또한, 여러 대형 대화 생성 모델 [1, 3, 25, 47]이 transformer 아키텍처를 사용하여 사전 훈련되었습니다.
대화 생성의 또 다른 중요한 방향은 응답 검색/다음 발화 선택 모델 [5, 12, 14, 21, 30, 41, 44] 및 검색 증강 생성 또는 RAG [4, 10, 11, 15, 15, 43, 51] 모델의 개발입니다.
RAG와 우리의 접근 방식 사이의 중요한 차이점은 우리가 훈련 중에 응답 검색 모델을 최적화 목표로 사용하고 어떠한 외부 데이터 소스나 지식 베이스도 사용하지 않는다는 것입니다.
대화 생성 모델을 훈련하기 위해 인기있는 선택인 크로스 엔트로피 손실은 생성된 응답을 참조 응답과 비교할 수 있을 뿐이라는 제한이 있습니다.
이를 극복하기 위해, 다양한 강화 학습 (RL) 기반 훈련 알고리즘이 제안되었습니다.

이는 모델과 출력 생성의 다른 품질을 최적화 할 수 있게 합니다.
예를 들어, 응답의 일관성. Li 등 [16]은 장기적 성공을 최적화하기 위해 RL을 사용했으며, Li 등 [17]은 적대적 학습과 정책 기울기를 통합하여 판별자 기반 보상 함수를 만들었습니다.
또한, Saleh 등 [27], Sankar 및 Ravi [28], Zhao 등 [48]는 해석 가능한 대화 생성 모델을 훈련하기 위해 잠재적인 이산 행동 공간을 학습하기 위해 RL을 활용했습니다.

본 논문에서는 RL 기반 대화 모델을 훈련하기 위한 응답 검색 모델을 기반으로 한 새로운 보상 함수인 CORAL을 제안합니다.
따라서 이 논문은 이 "검색 가능성 점수"를 최적화 대상으로 사용할 수 있는 가능성을 탐구하고 대화 생성에 대한 효과를 이해하기 위해 다양한 실험 환경에서 철저히 분석합니다.

3 PROPOSED APPROACH

우리의 제안된 접근 방식은 인간의 선호도 추정치를 기반으로 한 새로운 보상 함수를 최적화하여 강화 학습 (RL) 환경에서 대화 생성 모델을 훈련시키는 데 초점을 맞춥니다.
보상 함수를 설계하기 위해 우리는 섹션 3.1에서 설명한대로 응답 검색 모델을 사용합니다.
그런 다음, 섹션 3.2에서 이 대화 생성 작업의 RL 관점에 기반한 새로운 손실 함수인 CORAL을 제안합니다.
우리는 전통적인 크로스 엔트로피 손실 대신 이러한 RL 관점을 기반으로 한 CORAL 손실을 사용하여 transformer 기반의 Seq2Seq 모델을 훈련시킵니다.
또한, 섹션 3.3에서 대화 응답 생성 작업의 지수적으로 큰 행동 공간을 다루기 위한 두 가지 RL 알고리즘을 논의합니다.
우리의 접근 방식은 효과적으로 대화 생성 모델을 훈련시켜 자연어 대화에서 고품질이며 인간과 유사한 응답을 생성하는 능력을 향상시킵니다.

3.1 𝑅3 Reward Function

우리는 응답 검색 모델의 점수를 사용하여 𝑅3 보상 함수를 모델링합니다.

응답 검색 또는 다음 발화 선택 작업은 대화 컨텍스트와 후보 응답이 주어졌을 때, 해당 응답이 컨텍스트에 대한 유효한 계속인지 예측하는 작업을 포함합니다.
Sinha 등 [35]은 응답 검색과 유사한 작업으로 훈련된 모델의 출력 확률이 대화 응답에 대한 인간 선호도와 강한 상관 관계가 있다는 것을 보였습니다.
이는 출력 값(0과 1 사이의 값)이 인간 주석자가 해당 응답을 일관되고 주제에 적절한 컨텍스트의 계속으로 평가할지 여부를 나타낸다는 것을 의미합니다.
이 아이디어를 기반으로 주어진 데이터셋에서 응답 검색 모델을 훈련하고, 이를 다이얼로그 생성 모델에 의해 최적화될 보상 함수로 정의합니다.
우리는 응답 검색 모델의 출력 확률을 컨텍스트 응답 검색 가능성 보상 (𝑅3)으로 참조합니다.
response selection 모델이 reward model이 되는 듯?

Training the Reward Model.

우리는 BERT 기반 분류기를 응답 검색 작업에 대해 세밀하게 조정합니다.
응답 검색 모델은 CLS 출력 표현(최종 레이어) 위에 분류 레이어를 추가한 후 전체 모델을 응답 검색 작업을 위해 세밀하게 조정합니다.
응답 검색 모델은 바이너리 크로스 엔트로피 (BCE) 손실을 사용하여 자체 지도 학습 설정에서 훈련됩니다.
모델을 훈련하기 위해, 대화 데이터셋에서 양성과 음성 ⟨컨텍스트, 응답⟩ 쌍을 생성합니다(대화 생성 훈련에 사용될 동일한 데이터셋입니다).
양성 샘플을 만들기 위해, 데이터셋에서 대화를 풀어 얻은 컨텍스트-응답 (CR) 쌍을 추출합니다.
그런 다음, 각 양성 CR 쌍에 대해 데이터셋의 다른 대화에서 무작위 발화와 컨텍스트를 결합하여 𝑛(= 4)개의 음성 CR 쌍을 생성합니다.
negatvie 는 4개의 랜덤샘플링을 활용한 듯

3.2 CORAL Loss Function

제안된 𝑅3 보상 함수를 최적화하기 위해, 이 함수는 정책 네트워크(Seq2Seq 모델로 구현됨) 매개변수에 대해 미분 가능하지 않기 때문에 응답 생성 문제를 강화 학습(RL) 작업으로 설정합니다.
그런 다음 다음과 같이 REINFORCE [42]를 적용하여 미분 가능한 목적 함수를 얻습니다.
각 컨텍스트-응답 생성 작업의 각 인스턴스는 RL 공식화에서 하나의 에피소드로 간주됩니다.
state는 토큰화된 대화 컨텍스트와 이전 타임스텝까지 생성된 응답 토큰 세트로 구성됩니다.
각 에피소드는 에이전트가 취하는 여러 행동으로 구성되며, 우리의 경우 디코더를 포함하여 완전한 응답을 생성합니다.
각 행동은 출력 토큰을 생성하는 것에 해당합니다.
에피소드는 에이전트가 EOS (end-of-sequence) 토큰을 생성하거나 허용된 최대 토큰 수 (𝑇)를 생성할 때 종료됩니다.
그런 다음 응답 검색 모델은 ⟨컨텍스트 𝑐, 생성된 응답 𝑟⟩ 쌍에 대해 𝑅3 보상을 생성합니다.
예상되는 반환을 최대화하는 Seq2Seq (S2S) 모델 𝑃(𝑟|𝑐)의 가중치 𝜃에 대한 업데이트는 다음과 같이 에피소드 REINFORCE 알고리즘 [42]에 의해 결정됩니다.

여기서 𝜂는 학습률이고, 𝑟은 학습된 정책 𝑃(𝑟|𝑐)에서 샘플링된 응답입니다.

최소화해야 하는 손실 함수(자기회귀 디코더에 대한)는 다음과 같이 작성될 수 있습니다.

일반적인 강화학습 loss 식인듯

Fig. 2 illustrates how Eq. 2 is used to compute the proposed CORAL loss function.

3.3 Training Algorithm

RL 훈련은 파라미터화된 정책 네트워크(우리의 경우 Seq2Seq 모델)에서 생성된 샘플을 사용하는지 또는 별도의 동작 정책에서 얻은 샘플에 따라 온-폴리시(on-policy) 또는 오프-폴리시(off-policy)가 될 수 있습니다.
순수한 온-폴리시 훈련의 경우, 디코더에서 무작위로 샘플링된 응답 순차열에 의존해야 합니다.

그러나 응답 공간의 지수적인 복잡성 때문에 온-폴리시 훈련 중에 유효한 발화/응답 후보를 얻을 가능성은 매우 적습니다.
온폴리시가 모델이 학습되면서 응답을 샘플링하는 방식인듯

반면에, 오프-폴리시 학습은 그라운드 트루스 응답에만 의존하며 탐색의 이점을 활용할 수 없습니다.

오프폴리시는 데이터세트 활용하는건데, GT의 한계가 있음

이 문제를 해결하기 위해 우리는 두 가지 다른 해결책을 탐구합니다.
첫째, Proximal Policy Optimization 또는 PPO [31]는 정책 업데이트 단계의 높은 분산 문제를 해결하기 위한 매우 주목받는 RL 알고리즘입니다.

우리는 제안된 보상 함수를 최적화하기 위해 PPO를 사용하여 대화 생성 모델을 훈련하기 위해 TRL [38] 패키지 구현을 사용했습니다.

둘째, 다른 해결책인 mix-policy training은 REINFORCE 알고리즘 업데이트의 편향을 직접 줄이기 위한 것입니다.

Eq. 2를 사용하여 온-폴리시 훈련의 분산을 줄이기 위해 훈련 중에 온-폴리시 및 오프-폴리시 그라운드 트루스 응답 샘플을 혼합 정책이라고 합니다.
혼합의 양은 하이퍼파라미터인 𝑝 + (아래에서 자세히 설명)로 제어됩니다.
또한, 업데이트된 손실 함수에는 데이터셋에서 양성 응답 샘플을 𝑅3(𝑐, 𝑟)로 가중치가 부여됩니다.

여기서 𝑟 - 및 𝑟 +는 정책에 의해 생성된 온-정책 및 오프-정책 응답 후보이고, 그것은 각각 토큰화 후의 응답 길이입니다.
즉, 온폴리시 오프폴리시 혼합해서 학습하는걸 제안한다

때때로 랜덤 샘플링 기반 디코딩은 시퀀스를 생성하는 동안 매우 낮은 확률의 토큰을 생성할 수 있기 때문에, 우리는 온-정책 샘플을 생성할 때 무작위 샘플링 대신 nucleus 샘플링 [13]을 사용합니다.
알고리즘 1에서 우리는 CORAL 손실을 사용하여 대화 데이터셋 𝐷에서 Seq2Seq 모델을 훈련하는 단계를 보여줍니다.
우리는 CORAL 손실을 사용하여 훈련된 seq2seq 모델을 CORAL 모델이라고 합니다.

3.4 Hyperparameters of CORAL

CORAL은 두 가지 주요 하이퍼파라미터를 포함합니다.
(1) 양성 샘플 확률 (𝑝+)은 믹스-정책 훈련에서 그라운드 트루스 (오프-정책) 응답 샘플을 사용하는 확률을 나타냅니다.
(2) 마진 (𝑚)은 모델 생성에서 기대하는 최소 보상을 나타냅니다. 우리는 RL 훈련을 위한 기준 보상으로 고정된 마진 값을 사용합니다.

RL에서 advantage을 의미하는 듯?

4 SIMILARITIES AND DIFFERENCES BETWEEN CORAL AND CROSS ENTROPY LOSS FUNCTIONS

이 섹션에서는 제안된 CORAL 손실과 크로스 엔트로피 손실 함수 간의 유사점과 차이점을 탐색합니다.

1. CORAL은 크로스 엔트로피 손실과는 매우 다른 관점에서 유도되었습니다. 그러나 우리가 양성 샘플만 후보 응답으로 고려하고 점수 범위 (𝑠𝑐𝑜𝑟𝑒 ∈ [0, 1]) 및 마진 𝑚 (𝑚 = 0)을 설정하여 항상 𝑅3가 0보다 크다고 가정하면, CORAL은 가중 크로스 엔트로피 손실의 동등한 형태입니다.
2. 크로스 엔트로피 손실은 데이터셋에서 양성 응답에 엄격하게 의존했습니다. CORAL은 양성 및 음성 응답 후보를 모두 활용합니다.
3. 크로스 엔트로피 손실을 사용한 대화 생성 모델의 훈련은 일반적인 응답을 더 많이 강조할 수 있습니다. 왜냐하면 서로 다른 ⟨컨텍스트, 응답⟩ 쌍에 자동으로 가중치를 할당하는 메커니즘이 없기 때문입니다. CORAL은 서로 다른 ⟨컨텍스트, 후보 응답⟩ 쌍에 대해 서로 다른 가중치를 할당하는 기능이 있습니다.
4. CORAL은 훈련에 무작위로 샘플링된 응답 후보를 사용하므로 훈련 중에 더 많은 ⟨컨텍스트, 응답⟩ 쌍을 활용할 수 있습니다. 이는 동일한 데이터셋에서 더 풍부한 훈련 신호를 제공합니다.
5. 크로스 엔트로피 손실은 예측된 토큰과 대상 토큰 간의 토큰 수준의 비교로 분해됩니다. 그 주요 목표는 대상 응답의 토큰 확률을 엄격하게 증가시키는 것입니다. CORAL 손실은 응답을 전체 단위로 처리하기 때문에 응답의 의미론적 및 컨텍스트 호환성에 따라 응답의 확률을 전체적으로 증가시키거나 감소시킵니다.

5 EXPERIMENTAL SETUP

5.1 Model Setup

우리는 CORAL 손실을 사용하여 대화 생성 모델을 훈련하기 위해 오른쪽 부분의 Fig. 2에 나와 있는 표준 transformer 기반의 Seq2Seq (S2S) 아키텍처를 사용합니다.
모델을 훈련할 때는 조기 중단을 사용하며, 최대 50 에포크까지 훈련하며, 이때 검증 세트에서 생성된 응답의 평균 𝑅3 점수에 기반합니다.
피크 학습률이 10^(-4)인 Adam 옵티마이저를 사용하며, 처음 1000 단계 동안 웜업을 하고 선형적으로 감소시킵니다.
우리는 개별 CORAL 모델을 훈련하기 위해 단일 NVIDIA V100-32GB GPU 기반 시스템을 사용합니다.
CORAL:

CORAL에 대해서는, 우리는 6개의 self-attention 레이어, 8개의 self-attention 헤드 및 1,024 크기의 은닉 표현을 사용하는 Transformer 기반의 Seq2Seq 모델을 구현했습니다. 인코더와 디코더 모두에 대해 동일한 구조를 사용합니다. 우리는 BERT의 wordpiece tokenizer를 사용합니다.

CORAL-BB:

CORAL 모델의 이 변형은 facebook/Blenderbot-400M-distill 체크포인트로부터 사전 훈련된 가중치로 초기화됩니다. 이는 대규모 사전 훈련의 힘을 활용하면서도 제안된 RL 기반 훈련 알고리즘을 사용하여 세밀하게 조정할 수 있습니다. CORAL-BB는 Blenderbot 모델과 동일한 아키텍처와 tokenizer를 사용합니다 (2개의 인코더 레이어와 12개의 디코더 레이어).

보상 함수:

우리는 BERT 기반 검색 모델, 즉 𝑅3을 세밀하게 조정하여 보상 함수를 모델링합니다. BERT 기반 검색 모델은 [CLS] 토큰 임베딩 상단에 1개의 은닉 레이어 MLP를 갖춘 사전 훈련된 transformer-인코더로 구성됩니다. 우리는 응답 검색 작업을 위해 BERT를 대화형 데이터셋에서 세밀하게 조정합니다. 컨텍스트와 응답 간의 의미적 유사성을 계산하여 보상 함수 점수를 정의하는 또 다른 방법으로는 두 가지 유사성 메트릭인 SimCSE와 DSE를 실험적으로 사용합니다.
response selection model말고도 simcse, dse라는 것을 사용했다고 함
reward model의 성능은?

5.2 Datasets

우리는 모든 실험에 DailyDialog (DD) [18] 및 DSTC7-Ubuntu [46] 데이터셋을 사용합니다. DD는 영어로 된 오픈 도메인 대화 데이터셋입니다.
DSTC7-Ubuntu는 리눅스 IRC 채널에서의 대화를 기반으로 한 도메인 특정 데이터셋입니다. 대화를 풀어 대화 내용에서 최소 두 개의 이전 발화를 보존하면서 컨텍스트-응답 (CR) 쌍을 생성합니다.
DD는 각각 76052, 7069 및 5740개의 CR 쌍을 훈련, 검증 및 테스트용으로 포함하고 있으며, DTSC7-Ubuntu는 각각 470860, 23478 및 3247쌍을 포함하고 있습니다.
그러나 Wen et al. [40]은 최근 DD 데이터셋의 분할 간에 일부 유출이 있음을 보여주었으며, 새로운 분할로 구성된 정리된 버전 (DD𝑐)을 제안했습니다.
이 버전은 각각 훈련, 검증 및 테스트용으로 60243, 6644 및 5986개의 CR 쌍을 포함하고 있습니다.

5.3 Baselines

We experiment with several strong pretrained as well as nonpretrained baseline models.
Non-pretrained Baselines:

Mirror [19]: CVAE [34]를 확장한 Seq2Seq 모델로, 역추론 손실 함수로 훈련됩니다. 이는 양방향 방식으로 최종 및 최종 이전 발화를 생성하기 위해 최적화됩니다. 이는 작은 규모의 대화 생성 모델을 훈련하는 최신 손실 함수로서 [27, 34, 49]보다 우수한 성능을 발휘합니다.
AdaLabel [39]: 적응형 라벨 스무딩 및 소프트 타겟 분포를 사용하여 모델이 단일 선택에 지나치게 확신하지 않도록 합니다.
ALDGen [17]: 인간이 생성한 대화와 기계가 생성한 대화를 구별하는 판별자와 판별자가 제시한 점수를 최적화하기 위한 생성자를 포함합니다. 이를 RL을 사용하여 최적화합니다.

Pretrained Baselines:

다음과 같은 제로샷 및 파인튜닝된 변형을 고려합니다.
Blenderbot [25]: Reddit를 기반으로 한 대화 말뭉치에서 사전 훈련된 Transformer 기반의 S2S 모델로, Blended-Skill-Talk 데이터셋 [36]에서 파인튜닝됩니다.
DialoGPT [47]: Reddit의 대화에서 더 파인튜닝된 GPT-2 [23] 기반 언어 모델입니다.
DialogRPT [9]: Reddit 댓글의 좋아요/싫어요 및 답글 수에 대한 데이터셋에서 훈련된 응답 랭킹 모델입니다. 생성을 위해 DialoGPT에서 샘플링된 응답을 다시 순위 지정하고, 가장 높은 순위의 응답을 반환합니다.
이걸로 fine-tuned 모델을 베이스라인으로 사용했단 것인가?

5.4 Evaluation Metrics

우리는 자동 평가를 위해 표준적인 참조 평가 지표 (BLEU, METEOR)와 최근에 제안된 참조 없는 평가 지표 (MaUde, DEB)를 사용합니다.
BLEU [22]와 METEOR [2]는 예측된 응답과 실제 응답 사이의 n-gram 간 어휘적 중첩을 측정합니다.
MaUde [35, 45]는 실제 참조 없이 컨텍스트와 응답 사이의 적합성을 캡처합니다.
DEB [26]는 Reddit 대화의 대규모 데이터셋 (DEB𝑟)에서 훈련되고 각 컨텍스트에 대한 여러 관련 및 적대적인 응답의 데이터셋에서 파인튜닝된 BERT 기반 대화 평가 지표입니다 (DEB𝑎).
Distinct-n [20]은 생성된 응답의 n-gram 다양성을 측정합니다.
GPT4-eval을 사용해보는 것은?

6 RESULTS AND DISCUSSIONS

6.1 Automatic Evaluation

Table 1에서는 DD𝑐와 DSTC7 데이터셋을 사용하여 응답 생성에 대한 자동 평가 결과를 비사전 훈련, 제로샷 및 파인튜닝된 기준선 및 우리가 제안한 모델에 대해 별도로 제시합니다.

근데 이게 파라미터 개수가 다 다른거 아닌가?
크게 차이가 없으면 괜찮겠지만..

우리가 제안한 CORAL 모델에 대해서는, DSTC7-Ubuntu에 대해 𝑚=0.4 및 𝑝+=0.8, DD𝑐에 대해 𝑚=0 및 𝑝+=0.8이 최적의 하이퍼파라미터로 발견되었습니다.
CORAL-BB의 경우, 최적의 값은 𝑝+=0.6, 𝑚=0.2로 발견되었습니다.
Fig. 3에서는 𝑝+와 𝑚에 대한 민감도 분석을 보여줍니다.

본 연구의 주요 목표는 인간의 선호 추정을 최적화하여 대화 생성 모델을 훈련시킬 수 있는 프레임워크를 제안하는 것입니다.
뭔가 이것만으로는 reward model이 끼치는 영향을 알기 어려운거 같은데?
BERT을 심도있게 학습해서 더 나은 reward model과 비교를 해보자.

이전 연구들은 (예: BLEU, METEOR와 같은) 참조 기반 메트릭이 인간 평가와의 상관 관계가 낮다는 것을 보여주었습니다.

따라서 우리는 MaUde와 DEB와 같은 참조 없는 관련성 메트릭을 기준으로 모델을 평가하는 데 초점을 맞추었습니다.
MaUde와 DEB 측면에서, CORAL 모델은 모든 기준선을 큰 폭으로 능가합니다.

다양하고 고품질의 응답은 CORAL 손실 함수의 선택과 디자인을 정당화합니다.
특히 Blenderbot 초기화된 CORAL-BB 모델 (표 1의 블록 D)은 표준 CE 손실 기반 파인튜닝을 사용하는 모든 사전 훈련된 대화 생성 모델을 능가합니다.
사전 훈련된 CORAL 모델이 완전히 사전 훈련된 기준선을 능가할 것으로 기대하지는 않지만, DSTC7-Ubuntu의 경우, 우리의 사전 훈련되지 않은 CORAL 모델이 모든 제로샷 모델을 능가합니다.
더욱이, DSTC7-Ubuntu의 경우, 우리의 사전 훈련되지 않은 CORAL 모델이 크기가 약 4배인 강력한 파인튜닝된 기준선조차도 능가합니다.
이러한 결과는 훈련 목표로 인간 선호 추정을 사용함으로써 더 나은 관련성 점수를 달성하는 모델을 훈련할 수 있다는 것을 보여줍니다.
CORAL 패밀리의 변형 중에서, 𝑅3- 기반 모델에서는 mix-policy 훈련이 종종 off-policy 훈련보다 더 높은 관련성 점수를 달성한다는 것을 관찰합니다.

즉, 탐색을 허용하는 이점을 보여줍니다.

CE 손실을 사용하여 R3 보상을 사용하여 응답 샘플을 다시 가중하는 off-policy 훈련 접근 방식도 표준 CE 손실을 사용하여 훈련된 기준선 모델보다 우수한 성능을 발휘합니다.
이는 훈련 데이터셋에서 일부 샘플이 최종 성능에 동등하거나 긍정적인 기여를 하지 않는다는 것을 보여줍니다.
R3 보상을 사용하여 특정 샘플을 단순히 다운샘플링함으로써, 컨텍스트에 더 관련성 높은 응답을 생성할 수 있는 대화 생성 모델을 훈련할 수 있습니다.
생성된 응답의 다양성은 Dist-1 및 Dist-2 메트릭으로 나타납니다.

우리는 사전 훈련되지 않은 CORAL 모델이 사전 훈련된 모델보다 다양성이 더 높다는 것을 관찰합니다.
또한 CORAL-BB 모델의 경우 출력 길이와 다양성이 반비례 관계에 있음을 관찰합니다.
이는 모델이 출력이 길어질수록 일부 n-gram을 재사용할 가능성이 높아지기 때문일 수 있습니다.

표 1의 결과는 이전 연구들 [20, 35, 45]에서 보여진 바와 같이 어휘적 중첩 메트릭 (BLEU, METEOR)과 관련성 메트릭 (MaUde 및 DEB) 간의 연결 부재를 보여줍니다.
DSTC7-Ubuntu의 경우, Adalabel이 높은 BLEU 및 METEOR 점수를 기록하지만 관련성 값은 낮습니다.

반면에 DD𝑐의 경우, MaUde가 가장 높은 CORAL 모델도 가장 높은 BLEU 점수를 기록합니다.
생성된 응답의 평균 길이 측면에서 일반적인 추세는 사전 훈련된 모델이 다른 기준선보다 우수하며, CORAL 모델에도 동일한 추세가 나타납니다.
그러나 더 긴 생성이 반드시 더 나은 품질의 응답을 의미하는 것은 아닙니다.
두 가지 종류의 모델 초기화 중에서 (랜덤 대 사전 훈련) 사전 훈련이 CE 기반 기준선 모델의 관련성 점수에 중요한 도움이 되는 것으로 나타납니다 (표 1의 블록 A 대 B).
관련성 점수의 두 번째 개선은 이러한 사전 훈련된 모델을 과제 데이터셋에 대해 파인튜닝하는 것입니다.
이는 제로샷 사전 훈련 모델과 파인튜닝된 모델을 비교하여 확인할 수 있습니다 (표 1의 블록 B 대 C).
그리고 최종 개선은 이러한 사전 훈련된 모델을 CORAL 손실 함수를 사용하여 파인튜닝하는 경우에 얻어집니다.

이는 Blenderbot-finetuned 대 CORAL-BB를 비교하여 확인할 수 있습니다.

(1) 보상 함수 (BERT/SimCSE/DSE)의 변형 및 (2) 샘플 생성 방법 (오프-폴리시 및 믹스-폴리시)에 대한 다양한 실험에 대한 결과는 표 2에 제시됩니다.
우리는 제안된 손실 함수를 사용하여 새로운 보상 모델을 사전 훈련할 필요가 없다는 것을 관찰합니다.
특정 설정에서 기존의 사전 훈련된 유사성 메트릭 (예: SimCSE, DSE)도 즉시 보상 함수로 사용될 수 있습니다.
𝑅3 보상 훈련의 유용성은 모델을 처음부터 훈련할 때 더욱 두드러지는데, 이 경우 SimCSE 및 DSE 모두 좋은 최종 모델을 훈련시키는 데 실패합니다.
이 연구에서 탐색한 보상 함수 중에서 𝑅3이 모든 다른 설정에서 이러한 보상 함수의 더 견고한 성능을 가능하게 한다는 것을 관찰합니다.

6.2 Hyperparameter Sensitivity Analysis

다양한 하이퍼파라미터가 최종 훈련된 모델에 미치는 영향을 조사하기 위해 광범위한 실험을 수행했습니다.
구체적으로, 우리는 𝑝+ , 𝑚 및 샘플링 방법을 다양하게 조절했습니다.
포괄적인 결과는 그림 3에서 찾아볼 수 있습니다.
모든 비교는 검증 세트에서 모델이 얻은 최상의 평균 보상을 기준으로 수행되었습니다.
일반적으로, 믹스-폴리시 설정이 오프-폴리시 훈련 루틴을 일관되게 능가했습니다.
DD 시나리오를 고려할 때, 낮은 마진 값이 더 높은 𝑅3 점수를 유발하는 경향이 있음을 관찰했습니다.
그러나 DSTC7-Ubuntu와 DD𝑐의 경우, 믹스-폴리시 훈련 접근 방식은 마진 값이 증가함에 따라 𝑅3이 증가하는 것을 보여주었습니다.
또한 대화 데이터셋(훈련 분할)에서 무작위로 대화를 샘플링하여 부정적인 응답 후보를 선별하는 것을 탐구했습니다.
우리는 이를 그림 3에서 RandomNegatives (또는 간단히 RandomNeg)라고 합니다.
믹스-폴리시 훈련은 뉴클레우스 샘플링을 사용하는 것이 RandomNegatives를 능가함을 관찰했습니다.
뉴클레우스 샘플링은 seq2seq 모델에 의해 모델링된 응답 분포에서 샘플을 생성하기 때문에 보상 신호와 RL 훈련이 응답 생성 모델의 높은 확률 영역을 보정하고 강화하는 데 더 효과적일 것으로 생각됩니다.

6.3 Human Evaluation Study

자동 평가 메트릭은 인간이 모델이 생성한 응답을 어떻게 평가하는지에 대한 모든 미묘한 측면을 포착할 수 없기 때문에 우리는 다양한 모델에 대한 인간 평가 연구를 실행하기도 했습니다.
우리는 이러한 설문 조사를 진행하기 위해 Appen.com 플랫폼을 사용했습니다.
미국을 기반으로 한 세 명의 서로 다른 평가자들이 참여율, 관련성, 유창성 및 일관성에 대한 컨텍스트-응답 쌍을 0-2 점 척도로 평가했습니다: 없음 (0), 어느 정도 (1), 예 (2). 자세한 주석 설문지는 코드 저장소에서 확인할 수 있습니다.
이 평가 과정은 DD𝑐 테스트 세트에서 무작위로 선택된 15개의 컨텍스트에 대해 Blenderbot, DialogRPT 및 CORAL-BBBERT (mixp) 모델에 대해 실행되었습니다.
각 모델에 대해 주석 달린 각 측면의 평균 평점을 그림 4에 플로팅했습니다.
전반적으로, CORALBB 모델은 일관성과 관련성 측면에서 DialogRPT와 Blenderbot보다 높은 점수를 보여주지만, 인간이 생성한 대화보다는 낮은 점수를 보입니다.
DialogRPT는 가장 높은 유창성 점수를 보여주며, 이는 가장 잘 구성된/문법적으로 올바른 영어 문장을 생성한다는 것을 나타냅니다.
CORAL은 비슷한 점수를 가지고 두 번째로 높은 위치에 있습니다.
특이한 발견 중 하나는 Blenderbot 및 CORAL-BB에서의 응답이 인간이 생성한 것보다 더 매력적이라는 것입니다.
이는 그림 3에 표시된 예시에서도 확인할 수 있습니다 (6.4절에서 더 자세히 논의됨).
6.4 Qualitative Analysis of Generation Quality
표 3에서 CORAL-BBBERT(mixp) 및 일부 베이스라인 모델(DialogRPT (FT), Blenderbot (FT))에서 생성된 샘플을 제공합니다.

우리는 CORAL이 기존 모델들보다 정보를 더 일관되게 제시(coherence)한다는 것을 발견했습니다 (예시 1).
또한, DialogRPT가 더 반복적이고 경우에 따라 이전 발언을 그대로 반복하는 것을 알 수 있었습니다 (예시 4).
예시는 또한 Blenderbot과 CORAL-BB가 DialogRPT 및 실제 응답보다 더 매력적이라는 것을 보여줍니다.
일반적으로, CORAL-BB 응답은 대화적이며, 응답에서 화자가 다른 사람의 의견에 관심을 가지고 대화를 이어나가려는 의사가 있는 것을 보여줍니다 (예시 3 및 4).

6.5 Error Analysis

우리의 최고 모델(config: CORAL-BBBERT-mixp)이 생성한 응답에 대한 한계를 파악하고 잠재적인 개선 영역을 식별하기 위해 에러 분석 연구를 실시했습니다.
넓은 에러 버킷에는 사용자 대 대화 모델에 대한 다음 응답을 올바르게 할당하는 데 어려움, 관련성은 있지만 다른 방향으로 향하는 후속 발언을 생성하는 경향, 그리고 가끔 연이어 발언을 하나의 응답으로 생성하는 것이 포함됩니다.
우리는 R3 보상의 사용으로 문맥적으로 관련된 응답의 일관된 생성을 보장하지만, 여전히 우리의 모델이 몇 가지 세밀한 오류를 만드는 것을 발견했습니다.
이러한 오류에는 사용자 또는 봇에 대한 다음 응답을 올바르게 할당하는 데 어려움(DD𝑐 4%, DSTC7 0%), 관련성은 있지만 다른 방향으로 향하는 후속 발언을 생성하는 경향(DD𝑐 8%, DSTC7 20%), 그리고 가끔 연이어 발언을 하나의 응답으로 생성하는 것(4%)이 포함됩니다.
특히, 데이터셋(DD𝑐 와 DSTC7) 간에 에러 분포에 상당한 차이가 있는 것을 관찰했는데, 이는 DSTC7-Ubuntu 데이터셋의 기술적 성격에서 비롯될 것으로 보입니다.
이러한 한계는 현재 𝑅3 함수의 설계로 인한 것으로 보입니다.
이러한 한계는 때로는 𝑅3 보상 함수를 사용하여 훈련된 CORAL 모델에도 영향을 미칩니다.
이러한 오류를 해결하기 위해 보상 모델의 훈련 중 손실 함수에 구체적인 자기 지도 신호를 통합하고 더 나은 사전 훈련된 기본 모델을 활용하는 등의 잠재적인 해결책을 제안합니다.
이러한 조치를 구현함으로써 확인된 한계를 해결하고 모델의 전반적인 성능을 향상시킬 수 있다고 믿습니다.
이 두개 언급하자!

7 CONCLUSION

본 논문에서는 대화 생성을 위한 CE 손실의 단점을 우회하기 위한 새로운 손실 함수인 CORAL을 제안했습니다.
구체적으로 CORAL의 mix-policy 기반 훈련을 사용하면 지면 진실을 유일한 올바른 응답으로 가정하지 않고도 대화 생성 모델을 훈련시킬 수 있으며, 손실 함수의 값은 문맥과 응답 모두에 기반합니다.
CORAL 손실은 사전 훈련된 응답 검색 모델에 기반하며, 이 모델들은 이전 문헌에서 인간의 선호도와 관련이 있음이 입증되었습니다.
두 가지 다양한 벤치마크에서의 실험 결과는 CORAL이 다른 강력한 베이스라인 모델 (사전 훈련되지 않은 모델, 제로샷 및 파인튜닝된 모델)을 포괄적으로 능가한다는 것을 보여주었습니다.
우리는 이 프레임워크를 고급 강화 학습 방법과 커리큘럼 학습에서의 아이디어를 사용하여 더 효율적인 훈련을 위해 확장할 계획입니다.
마지막으로, 우리의 연구가 다른 응답 품질 측면을 포착할 수 있는 더 나은 보상 함수를 훈련하는 방법에 대한 흥미로운 연구 분야를 개척할 것을 희망합니다.

Reference

https://drive.google.com/file/d/1k7nhsVGzTelfGx5ramKzyzRk5mJLb4bB/view?usp=drive_link

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-207, CORAL: A Conversation-History Sensitive Loss Function for Effective Dialog Generation, SIGIR Review 2024

◼ Comment

ABSTRACT

1 INTRODUCTION

2 LITERATURE REVIEW

3 PROPOSED APPROACH

3.1 𝑅3 Reward Function

3.2 CORAL Loss Function

3.3 Training Algorithm

3.4 Hyperparameters of CORAL

4 SIMILARITIES AND DIFFERENCES BETWEEN CORAL AND CROSS ENTROPY LOSS FUNCTIONS

5 EXPERIMENTAL SETUP

5.1 Model Setup

5.2 Datasets

5.3 Baselines

5.4 Evaluation Metrics

6 RESULTS AND DISCUSSIONS

6.1 Automatic Evaluation

6.2 Hyperparameter Sensitivity Analysis

6.3 Human Evaluation Study

6.5 Error Analysis

7 CONCLUSION

댓글

댓글 쓰기