NL-126, Topic-Driven and Knowledge-Aware Transformer for Dialogue Emotion Detection (2021-ACL)

◼ Comment

  • 이 논문은 ERC 데이터에서 SoTA을 찍어서 살펴보았다.
  • 다른 여타 논문과 비슷하게 commonsense knowledge을 사용하였고, ATOMIC 데이터를 이용하였다.
    • COSMIC에서는 ATOMIC 데이터를 이용해서, 문장이 들어오면 지식을 생성하게끔 학습하여 사용했다고 하는데
    • 여기서는 knowledge retrieval을 하고, selection하는 모델을 만들어서 지식을 추출한다고 한다.
  • 추가적으로 topic representation을 이용하였다고 한다.
    • VHRED라는 레퍼논문의 구조를 따랐다고 한다. (대신 transformer을 씀)
    • 즉, topic을 추측하도록 모델을 post-training한 개념이다.
    • 그 후, topic fine-tuned 모델을 초기값으로 하고, commonsense knowledge와 결합하여 감정을 예측하게끔 하는 모델이라고 보면 될 것 같다.
  • 모델링 구조는 Transformer 인코더-디코더 구조를 사용하였음.
  • 결국 이 모델도 외부 지식이 필요한 단점이 있다는 것이.. 내 생각이다.

0 Abstract

  • 대화에서 감정 검출은 챌린지하다. 
  • 대화에서 감정을 감지하는 것은 종종 대화의 기저에 있는 주제별 주제, 관련 commonsense knowledge 및 정서적 상태 간의 복잡한 전환 패턴을 식별해야 하기 때문에 어렵습니다.
  • 이 논문에서, 우리는 Topic Driven Knowledge-Aware Transformer을 제안하여 챌린지를 해결한다.
  • 우리는 먼저, topic-augmented LM을 topic detection에 특화된 추가적인 layer 고안한다.
    • topic-augmented LM은 dialogue contextual information을 기반으로하는 knowledge base로부터 파생된 commonsense statements와 결합된 것이다.
  • 마침내, transformer-based encoder-decoder 구조는 topical과 commonsense informatino을 결합하고, emotion label sequence prediction을 수행한다.
  • 모델은 dialogue emotion detection에서 4개의 데이터세트에 대해 실험되었고, 실험적으로 기존의 SoTA보다 뛰어남을 증명한다.
  • Quantitative and qualitative 결과들은 모델이 topics을 커버할 수 있고, 감정 카테고리들을 구별하는데 도움을 주는 것을 보여준다.

1 Introduction

  • 온라인 대화 및 TV 시리즈에서 추출한 대화의 풍부함은 심리 치료를 위한 공감 대화 에이전트 또는 챗봇의 개발에 중요한 자동 감정 감지를 위한 모델을 훈련할 수 있는 전례 없는 기회를 제공합니다(Hsu and Ku, 2018; Jiao et al., 2019 ; Zhang et al., 2019; Cao et al., 2019).
  • 그러나, 이는 한 사람의 발화에서 설명된 personal experience의 contextual semantics을 캡쳐하는데 챌린지하다.
  • 예를 들어, 문장의 emotion "I just passed the exam"은 화자의 기대에 따라 happy 혹은 sad 둘 다 될 수 있다.
  • 발화의 representation을 강화하기 위해 dialogue context을 활용하는 연구들이 있는데, 여기서 과거의 발화들로부터의 영향들은 recurrent units에 의해 핸들링되고 attention signals은 발화의 positional order을 강화하기 위해 소개되었다.
  • 위의 방법들에의해 진전되었음에도 불구하고, 대화에서 감정을 검출하는 것은 여전히 챌린지하다.
    • 왜냐하면 감정이 표현되는 방식과 발화의 의미가 토론된 특정 주제에 따라 달라지는 방식과 참가자 간에 공유되는 암묵적인 knowledge 때문입니다.
    • 그림 1은 어떻게 topics와 background knowledge가 대화의 기분에 영향을 미치는지 보여준다.
  • 일반적으로, 특정 토픽을 둘러싼 대화들은 특정한 language patterns을 동반하여, 발화의 의미뿐만 아니라 특정한 표현으로부터 오는 특정 감정들에도 영향을 끼친다.
    • 기존의 대화 감정 검출 방법들은 이러한 전체적인 대화들의 속성 모델링에 중점을 두지 않았다. (즉, conversational topics and tones)
  • 결과적으로 그들은 논의된 특정 주제와 관련된 화자의 정서적 상태를 포착하는 데 근본적으로 제한된다.
    • 게다가, 감정과 토픽 검출은 대화 상대 간에 공유되는 기본 상식 지식을 활용하는 데 크게 의존합니다.
  • COSMIC(Ghosal et al., 2020)와 같이 이를 통합하려는 시도가 있었지만 기존 접근 방식은 관련된 주제와 감정 모두를 기반으로 관련 정보의 세분화된 추출을 수행하지 않습니다.
  • 최근에, Transformer 구조는 언어 모델에서 강력하고 많은 데이터의 양에서 적은 리소스 도메인의 데이터로 transfer을 가능하게 하고, conversational texts에서 topics을 발견하는것을 가능하게 한다.
  • 이 논문에서, 우리는  데이터 부족 문제를 줄이기 위해 pre-trained LM에 extra layer을 추가하여 latent topics을 모델링하고, 이는 대화 데이터 세트에 대해 fine-tuning된다. 
  • Transformers의 성공에서 영감받아, 우리는 Transformer Encoder Decoder 구조를 사용하여 Seq2Seq 예측을 수행하고, 발화 시퀀스가 주어지면 감정 레이블 시퀀스가 예측된다. (즉, 각 발화에 감정 레이블이 할당됨)
  • 우리는 현재 발화의 대화 감정이 역사적 대화 컨텍스트와 과거 발화에 대한 예측된 감정 레이블 순서에 의존한다고 가정합니다.
    • 우리는 주의 메커니즘과 게이팅 메커니즘을 활용하여 다양한 접근 방식에서 검색된 상식적인 지식을 통합합니다. 
  • 코드 및 훈련된 모델은 추가 연구를 용이하게 하기 위해 릴리스됩니다.
  • 요약하자면, 우리의 기여는 다음과 같습니다.
    • 우리는 먼저 대화 감정 검출에 대한 topic-driven 접근법을 제안한다.
    • 우리는 pre-trained LM을 사용한 topic-driven fine-tuning으로부터 low-resource setting을 경감하는 것을 제안한다.
    • 우리는 pointer network와 추가적인 attention을 활용해서 여러 소스와 dimensions으로부터 commonsense knowledge을 통합한다. 
    • 우리는 대화 감정 검출을 위한 recurrent attention 뉴럴네트워크를 대체하기 위해  Transformer Encoder-Decoder 구조를 개발한다.

2 Related Work (번역)

  • Dialogue Emotion Detection 
    • Majumder et al. (2019)는 대화 감정 감지에서 대화 컨텍스트의 중요성을 인식했습니다. 그들은 GRU(Gated Recurrent Unit)를 사용하여 스피커 ad-hoc GRU에 의해 업데이트되는 전역 컨텍스트를 캡처했습니다. 동시에 Jiao et al. (2019)는 토큰과 발화 각각 모델링을 위해 두 개의 GRU로 구성된 계층적 신경망 모델을 제시했습니다. Zhang et al. (2019)는 GCN(Graph Convolutional Network)을 사용하여 컨텍스트 및 화자에 대한 정서적 종속성을 명시적으로 모델링했습니다. 한편, Ghosal et al. (2019) 화자 내 종속성과 대상의 상대적 위치 및 대화 내 컨텍스트를 고려하여 이전 작업(Majumder et al., 2019)을 확장했습니다. 메모리 네트워크는 발화 간의 양방향 영향을 허용하기 위해(Jiao et al., 2020) 탐색되었습니다. 유사한 아이디어가 Li et al.에 의해 탐구되었습니다. (2020b). 대부분의 작업이 텍스트 대화에 중점을 두었지만 Zhong et al. (2019) ConceptNet에서 추출한 개념 표현으로 발화를 강화했습니다(Speer et al., 2017). Ghosal et al. (2020)은 상식 지식 습득을 위해 ATOMIC(Sap et al., 2019)를 활용한 COSMIC을 개발했습니다. 기존 접근 방식과 달리 대화 감정 감지를 위한 Transformer Encoder-Decoder 구조를 기반으로 하는 주제 중심의 지식 인식 모델을 제안합니다.
  • Latent Variable Models for Dialogue Context Modelling 
    • 일반적으로 VAE(Variational Autoencoder)라는 신경 변형 추론 형식으로 설명되는 잠재 변수 모델(Kingma and Welling, 2014)은 개별 문서의 주제 표현을 학습하기 위해 광범위하게 연구되었습니다(Miao et al., 2016; Srivastava and Sutton, 2017). ; 레자이와 페라로, 2020). 동적으로 진화하는 대화에 대한 주제 특성을 모델링하기 위해 대화 생성에 성공적으로 사용되었습니다. 이 작업 라인에는 계층적 반복 VAE(Serban et al., 2017; Park et al., 2018; Zeng et al., 2019) 및 조건부 VAE(Sohn et al., 2015; Shen et al.)에 기반한 접근 방식이 포함됩니다. , 2018; Gao et al., 2019) 각 발화를 과거의 잠재 코드로 인코딩하고 입력 시퀀스를 자동 회귀적으로 재구성합니다.
    • 반면에 사전 훈련된 언어 모델은 VAE 기반 모델에 대한 임베딩 입력으로 사용됩니다(Peinelt et al., 2020; Asgari-Chenaghlu et al., 2020). Li et al.의 최근 작업. (2020a)는 VAE의 인코더-디코더 구조로 BERT 및 GPT-2를 사용합니다. 그러나 이러한 모델은 처음부터 훈련되거나 사전 훈련된 임베딩을 기반으로 구축되어야 합니다. 따라서 대화 감정 감지의 자원이 부족한 설정에 직접 적용할 수 없습니다.
  • Knowledge Base and Knowledge Retrieval 
    • ConceptNet(Speer et al., 2017)은 일상 생활의 공간적, 물리적, 사회적, 시간적, 심리적 측면을 포괄하는 의미론적 네트워크로 상식적인 개념과 관계를 포착합니다. 보다 최근에는 Sap et al. (2019) 엔터티가 아닌 이벤트 중심의 지식 그래프인 ATOMIC을 구축했습니다. 사건의 표현력과 관계 유형의 개선으로 인해 ATOMIC을 사용하면 If-Then 추론 과제에서 인간 평가와 경쟁적인 결과를 얻었습니다. 지식 기반의 개발과 함께 최근 몇 년 동안 암시적 지식 기반으로 대규모 텍스트 말뭉치에서 언어 모델을 훈련하는 새로운 방법이 번성했습니다. (Petroni et al., 2019)에서 볼 수 있듯이 사전 훈련된 언어 모델은 엔터티에 대한 삼중항 관계와 관련된 관계 지식을 회상하는 데 잘 수행됩니다. Bosselut et al. (2019)는 ATOMIC과 같은 기존 상식 지식 기반에서 사전 훈련된 언어 모델을 미세 조정하여 자연어로 상식 설명을 생성하는 방법을 학습하는 COMmonsEnse Transformers(COMET)를 제안했습니다. 추출 방법과 비교하여 지식 기반에서 미세 조정된 언어 모델은 보이지 않는 이벤트에 대한 지식을 생성할 수 있다는 독특한 이점이 있으며, 이는 대화에서 감정 감지와 같은 상식 지식의 통합이 필요한 작업에 매우 중요합니다.

3 Methodology 

3.1 Problem Setup

3.2 Topic Representation Learning

  • 우리는 topic layer을 기존의 LM에 삽입하고 대화형 text에 대해 pre-trained LM을 topic representation learning에 대해 fine-tune한다.
  • topic models들은 종종 latent variable models으로 형식화되고 대화 모델링에서 중요한 역할을 한다.
    • 왜냐하면 명시적인 ‘high-level syntactic features such as style and topic’의 모델링 때문이다.
  • 대화 생성에서 topic modeling의 적용에 대한 많은 성공에도 불구하고, 대화 감정 검출을 위한 latent variable models을 활용하는 작업은 거의 없다.
  • 끝으로, 우리는 topic 발견에 대해 VHRED으로부터 구조를 가져온다.
    • 여기서 안코더 RNN과 디코더 RNN 모두 pre-trained LM의 layers으로 대체한다는 중요한 변경사항이 있다.
  • 게다가, 우리는 LSTM대신 transformer multi-haed attention을 사용해서 latent topic vectors 사이의 dependence을 모델링한다.
  • VHRED와는 다르게, 우리는 인코더 파트로 latent topic z의 posterior을 추출하는데 관심이있다. (디코더 파트의 z의 recurrent prior보다)
    • 왜냐하면 후자는 dialogue generation에 대한 것이기 때문이다. 
  • 우리는 각 발화들이 내부 토픽을 인코딩하는 latent variable에 매핑이 되고, 토픽 전환에 대한 순차적 dependence을 부과한다고 가정한다. 
    • 그림 2a는 VAE 기반의 모델의 전체 흐름도이고, 이는 LM을 fine-tuning하는 동안 latent topic vector을 학습하는데 초점을 둔다.
  • 구체적으로, pre-traeind LM은 2개의 파트로 구성된다. (인코더와 디코더)
  • pre-trained weights을 유지함으로써, 우리는 representations을 high-resource tasks에서 low-resource setting으로 transfer하고, 이는 dialogue emotion datasets의 케이스이다.
  • Encoder (번역)
    • TODKAT의 주제 발견 부분 교육은 각 시간 단계에서 VAE로 구성되며 해당 잠재 변수는 이전 잠재 코드에 종속됩니다.
    • 각 발언은 반복적인 은닉 상태로 VAE 인코더에 입력되며, 그 출력은 발언에서 논의된 주제를 이상적으로 인코딩하는 잠재 벡터입니다.
    • 잠재 벡터는 반복적인 은닉 상태를 통해 연결되어 단일 대화에 대해 일관된 주제를 제한합니다.
    • LMφ를 사용하여 언어 모델(토픽 계층 이전)의 하위 계층 네트워크를 나타내고 x L n을 사용하여 입력 xn이 주어지면 LMφ의 출력을 나타냅니다.
    • 사후 근사치에 대한 변동 분포는 다음과 같습니다.
    • 여기서 fμφ(·) 및 fσφ(·)는 다층 퍼셉트론(MLP)이고 fτ는 임의의 천이 함수(예: 순환 단위)일 수 있습니다. 우리는 쿼리가 이전 잠재 변수 zn−1인 변환기 다중 헤드 주의를 사용합니다.
    •  h0 = 0을 초기화하고 Eq를 사용하여 hn-1에서 zn을 먼저 생성하여 hn-1과 hn 사이의 전환을 모델링합니다. (2) 다음 식에 의해 hn을 계산합니다. (삼).
    • 자세한 설명은 논문에... 대략보면 발화를 VAE 인코더를 통과시켜서 얻은 것을 topic representation이라 보는 듯하다.
  •  Decoder
    •  
    • 이는 잠재 토픽 벡터에서 발화를 생성하는 대화 생성과 다르다는 점에 유의하십시오. 여기에서 우리는 현재 발화에서 잠재 주제를 추출하는 것을 목표로 하고 따라서 Eq에 지정된 대로 입력 발화를 재구성하도록 모델을 훈련시킵니다. (5). zn과 x L n의 조합을 LMθ와 호환되게 하려면 잠재 벡터 주입을 수행해야 합니다. (Li et al., 2020a)에서와 같이 zn이 LMθ에 대한 추가 입력이 되는 "메모리" 방식을 사용합니다. 즉, 상위 계층에 대한 입력은 [zn, xL n] 
  • Training
    • The training objective is the Evidence Lower Bound (ELBO)
    •  Eq. 6 factorizes and the expectation term become

3.3 Knowledge-Aware Transformer (번역)

  • topic 기반 LM 미세 조정 단계를 통해 LM은 주어진 발화에서 topic representation을 발견할 수 있습니다.
  • fine-tuning 후 fine-tuned된 구성 요소를 분류기에 추가하고 분류기를 훈련하여 감정 레이블을 예측합니다.
  • 우리는 Transformer EncoderDecoder 구조를 분류기로 사용하고 외부 지식 소스에서 검색된 상식 지식의 통합을 고려할 것을 제안합니다.
  • 다음에서는 먼저 지식 소스에서 상식 지식을 검색하는 방법을 설명한 다음 분류기의 세부 구조를 제시합니다.
  • Commonsense Knowledge Retrieval 
    • 우리는 ATOMIC2를 외부 지식의 소스로 사용합니다. 
    • ATOMIC에서 각 노드는 이벤트를 설명하는 구문입니다.
    • 에지는 한 이벤트에서 다른 이벤트로 연결되는 관계 유형입니다. 
    • 따라서 ATOMIC은 hevent, 관계 유형, eventi와 같은 트리플을 인코딩합니다.
    • 관계 유형에는 총 9가지가 있으며, 그 중 3가지가 사용됩니다. xIntent, 주체의 의도(예: '인상 받기'), xReact, 주체의 반응(예: '피로'), oReact, 대상의 반응(예: '걱정')은 사건의 정신 상태로 정의되기 때문에(Sap et al., 2019).
    • 발화 xn이 주어지면 지식 그래프의 모든 노드와 비교하고 가장 유사한 것을 검색할 수 있습니다. 
    • 발화와 사건 간의 유사도를 계산하는 방법은 SBERT(Reimers and Gurevych, 2019)입니다. 
    • 우리는 상위 K개의 이벤트를 추출하고 {e sI n,k, esR n,k, eoR n,k}, k = 1, 로 표시되는 의도와 반응을 얻습니다. . . , 케이.
    • 반면에 ATOMIC에 대해 훈련된 COMET3 이라는 지식 생성 모델이 있습니다.
    • xn을 입력으로 사용하고 지정된 원하는 이벤트 관계 유형(예: xIntent, xReact 또는 oReact)으로 지식을 생성할 수 있습니다.
    • COMET은 본질적으로 미세 조정된 언어 모델이기 때문에 생성된 지식은 ATOMIC에서 보이지 않을 수 있습니다.
    • COMET을 사용하여 각각 세 가지 이벤트 관계 유형과 관련하여 가장 가능성이 높은 K개의 이벤트를 생성합니다. 
    • 생성된 이벤트는 {g sI n,k, gsR n,k, goR n,k}, k = 1, 로 표시됩니다. . . , 케이.
  • Knowledge Selection
    • ATOMIC에서 검색된 지식을 사용하여 SBERT 또는 COMET에서 상식 지식을 독점적으로 선택하기 위해 포인터 네트워크(Vinyals et al., 2015)를 구축합니다.
    • 포인터 네트워크는 후보 지식 소스를 선택할 확률을 다음과 같이 계산합니다.

    • 지식 소스를 선택한 상태에서 가장 유익한 지식을 선택합니다. 
    • 우리는 후보 지식을 통합하기 위해 주의 메커니즘(Bahdanau et al., 2015)을 설계합니다. 
    • [CLS]와 주제 표현을 모두 계산할 수 있는 미세 조정된 언어 모델이 있음을 상기하십시오. 
    • 여기에서 [CLS] 및 [cn,k, zn,k]로 표시된 주제 표현을 얻기 위해 검색되거나 생성된 지식에 언어 모델을 적용합니다. 
    • 주의 메커니즘은 발화와 각 정규화된 지식 튜플 간의 내적을 계산하여 수행됩니다.
    • 여기에서 우리는 cn을 남용하여 집계된 지식 문구를 나타냅니다. 
    • self-attention을 사용하여 이벤트 관계 유형별로 cn을 추가로 집계하고 최종 이벤트 표현은 다음과 같이 표시됩니다.
  • Transformer Encoder-Decoder
    • 우리는 Transformer 인코더-디코더를 사용하여 발화 시퀀스를 감정 레이블 시퀀스에 매핑하므로 감정 간의 전환 패턴을 모델링하고 역사적 발화도 고려할 수 있습니다. 
    • 각 발화는 주제 표현 zn 및 지식 표현 cn과 연결된 [CLS] 표현으로 변환됩니다. 
    • 분류기가 자동 회귀 방식으로 감정을 예측하도록 인코더의 self-attention 레이어에 마스킹 방식을 적용하여 인코더에서 과거 발화만 볼 수 있도록 합니다. 
    • 이러한 마스킹 전략은 쿼리가 미래의 키에 주의를 기울이지 않도록 하는 것이므로 현재 발화의 감정을 예측할 때 후속 발화가 보이지 않는 실제 시나리오에 더 적합합니다. 
    • 디코더의 경우 이전 디코더 블록의 출력이 self-attention layer에 쿼리로 입력됩니다. 
    • 분류기에 대한 훈련 손실은 다음과 같이 표현되는 음의 로그 가능성입니다.

4 Experimental Setup

6 Conclusion

  • 우리는 Topic-Driven and Knowledge-Aware Transformer 모델을 제안하고, 이는 topic representation과 ATOMIC로부터 commonsense knowledge을 결합하여 대화의 감정 검출을 한다.
  • finetuning을 기반으로한 topic-augmented LM은 topic 추출을 위해 개발된다.
  • Pointer network와 추가적인 attention은 knowledge selection을 위해 탐구된다.
  • 모든 novel components은 Transformer Encoder-Decoder에 결합되어서 Seq2Seq 예측이 가능하게 한다.
  • 실험적인 결과들은 topic representation learning과 knowledge 결합에서 모델의 효과성을 입증하고, 이는 감정 검출의 성능을 향상시킨다.

Reference

댓글