NL-281, 2506 ARR Review1

◼ Comment

  • PromptECL: Leveraging Prompt Engineering to Unlock Emotion Classiffcation Capabilities in LLMs
  • 일단 가볍게 읽어봤을땐 LLM에게 프롬프팅 잘해서 ERC 성능 향상시켰다는 것이다
    • 물론 학습도 일부 들어간다
  • 과정
    • 감정 정보 마이닝을 진행
      • LLM에게 few-shot으로 문장의(과거 및 현재) 감정 레이블 정보를 주고
      • 현재 문장에 대해 화자의 의도와 감정 이유를 출력하라고 한다
      • 의도: Expressing disbelief about surprising news 
      • 감정이유: Excited reaction to unexpected marriage announcement
    • 모델 학습
      • 감정 정보 마이닝 결과를 활용해서 학습 데이터를 풍부하게 만든다
      • 추가된 정보와 컨텍스트를 모델 프롬프트에 넣어줘서 LoRA로 학습시킨다
      • 템플릿을 보면 출력으로 label만 내뱉는게 아니라 emotion reason도 같이 내뱉게 한다
    • 모델 추론
      • 학습과정과 같은 템플릿을 사용하여 추론하는데, 출력될 emotion을 제한해준다
      • 여기서 궁금한점은 과거 문장의 감정 정보를 예측한 것을 넣어주는 것인가?
  • 논문의 동기가 없다
    • 왜 이렇게 감정인식을 해야하는 지? 어떠한 문제점이 있는지? 그냥 단순히 llm이 성능이 좋기 때문에 시도한 것으로 보임
  • 비교 모델과 해당 방법과 모델 사이즈 차이가 너무큼
    • 해당 방법은 qwen2.5-75B을 쓰는데 과거 방법과 너무 큰 파라미터 차이가 난다
    • 훨씬더 작은 llm 1B 정도에서도 되는지 확인이 필요해보임
    • 비교모델을 llm을 활용한 방법들과 해야할 필요가 있다.
      • Is ChatGPT Equipped with Emotional Dialogue Capabilities?
      • CKERC : Joint Large Language Models with Commonsense Knowledge for Emotion Recognition in Conversation
  • ablation study에서 설명되는 용어에 대해 혼란스러움

Abstract 번역

대화 내 감정 인식(ERC)은 대화적 상호작용 내에서 감정 상태를 식별하는 것을 목표로 하는 자연어 처리의 중요한 과제입니다. 기존 접근법들은 일반적으로 맥락적 특징 추출과 감정 분류를 위해 BERT, GRU, GNN과 같은 기존 모델들을 사용하지만, 해석가능성, 아키텍처 복잡성, 성능 제약 등의 한계에 직면하는 경우가 많습니다. 이러한 문제들을 해결하기 위해, 우리는 PromptECL이라는 새로운 프레임워크를 제시합니다. 이는 전략적 프롬프트 템플릿을 통해 대형 언어 모델(LLM)의 내재적 감정 분류 능력을 활성화하는 퓨샷 프롬프트 엔지니어링을 활용하여, 잠재적 감정 단서 추출과 의미적 데이터 증강을 위한 LLM의 생성 잠재력을 활성화한 후, 감정 분석 능력을 향상시키기 위한 미세조정을 수행합니다. 4개의 벤치마크 데이터셋에 대한 종합적 평가는 PromptECL의 우수한 효과성과 일반화 능력을 보여주며, IEMOCAP, MELD, EmoryNLP에서 개선된 평균 가중 F1 점수로 새로운 최첨단 성능을 달성하고, DailyDialog에서는 이전 최고 결과 대비 놀라운 7.67% micro F1 점수 향상을 달성했습니다.

1. Introduction 번역

자연어 처리(NLP)의 중요한 연구 과제로서, ERC는 대화 텍스트를 분석하여 참가자들의 주관적 감정 경향을 식별하고 해석하는 것을 목표로 합니다. 인간-컴퓨터 상호작용 기술과 지능형 고객 서비스 시스템의 증가하는 보급과 심화되는 통합으로, ERC는 사용자 경험을 향상시키고 지능형 서비스 제공을 가능하게 하는 데 중요한 역할을 합니다.

따라서 ERC 과제는 맥락적 대화 정보를 감정 변동을 이끄는 근본적 메커니즘에 대한 미묘한 이해와 통합하고, 화자의 감정적 프로필과 대화 내 감정 변화에 기여하는 동적 요인을 정확하게 모델링하는 것이 필수적입니다. 맥락적 정보에 대한 ERC 과제의 모델링을 다루기 위해, 기존 접근법들은 주로 다음과 같은 측면에 집중해왔습니다. (부록 A.2에 자세히 설명됨)

1) 순환 기반 방법들 (Lei et al., 2023b; Liu et al., 2024; Ghosal et al., 2020; Hu et al., 2023a; Majumder et al., 2019; Hu et al., 2021)은 개별 감정 상태와 전역 감정 영향을 각각 모델링하기 위해 다양한 유형의 순환 신경망(예: LSTM과 GRU)을 활용합니다.

2) 그래프 기반 방법들 (Ghosal et al., 2019; Li et al., 2024; Liang et al., 2022; Ishiwatari et al., 2020)은 일반적으로 대화 모델링에서 등장인물과 대화 간의 관계를 나타내기 위해 노드와 엣지를 사용합니다.

3) Transformer 기반 방법들 (Ma et al., 2024; Chudasama et al., 2022)은 원래 Transformer 아키텍처를 직접 활용하거나 향상시켜 대화 시나리오에서 장기적 감정 연관성을 구축하는 것을 목표로 합니다.

4) 전통적인 사전 훈련된 모델 기반 방법들 (Yu et al., 2024; Xue et al., 2024; Shen et al., 2021; Xue et al., 2023)은 담화를 모델링하고 잠재적 의미 정보를 발견하기 위해 BERT와 RoBERTa 같은 사전 훈련된 모델을 활용합니다.

ERC 방법들은 이중 도전에 직면합니다: (1) 맥락적 모델링을 위한 복잡한 신경 아키텍처에 대한 과도한 의존은 훈련 복잡성을 증가시키고 일반화가능성을 제한합니다 (Brown et al., 2020; Ouyang et al., 2022); (2) 감정 라벨 예측 메커니즘의 내재적 해석가능성 부족으로, 결정 뒤의 의미적 근거를 드러내지 못합니다 (Moradi et al., 2021; Goyal et al., 2022).

LLM들이 맥락 내 학습과 사고 연쇄 추론을 통해 창발적 능력을 보여주지만 (Wei et al., 2022), 두 가지 중요한 격차가 지속됩니다: (1) 프롬프트 엔지니어링 개선에도 불구하고 과제 수행 중 행동적 편차 (Reynolds and McDonell, 2021); (2) 블랙박스 아키텍처의 근본적 설명가능성 제한, 특히 안전이 중요한 애플리케이션에서 문제가 됩니다.

인간의 감정 인지 (그림 1)는 다층적 추론을 독특하게 통합합니다 - 언어적 내용을 동시에 해독하고, 의사소통 의도를 추론하며, 감정 상태의 심리적 원인을 가설화합니다. 이는 표면적 텍스트 패턴에 주로 의존하는 LLM들과 대조되며, 맥락적 및 인과적 추론 능력에서 중요한 차이를 부각시킵니다.

앞서 언급한 도전들을 해결하기 위해, 우리는 LLM의 잠재적 감정 분류 능력을 활성화하도록 설계된 프롬프트 엔지니어링 기반 접근법인 PromptECL을 제안합니다. 신중하게 설계된 프롬프트를 활용하여, PromptECL은 추론과 미세조정 단계 모두에서 LLM의 내재적 감정 인식 잠재력을 효과적으로 자극합니다. 구체적으로, PromptECL은 먼저 LLM을 사용하여 원래 훈련 데이터의 의미적 증강을 수행하고 암시적 감정 정보를 발견한 다음, 이 풍부한 데이터셋을 사용하여 모델을 미세조정하여 분류 정확도와 해석가능성을 향상시킵니다.

이 연구의 기여는 다음과 같이 요약할 수 있습니다: 1) 단서어 템플릿을 통해 대화 정보를 종합하고 활용하는 대화 감정 인식을 위한 새로운 프롬프트 워드 프레임워크를 제안하여, LLM이 원래 훈련 데이터셋을 의미적으로 증강하고 잠재적 감정 정보를 발견할 수 있게 합니다. 2) 우리가 아는 한, 이는 LLM의 감정 분류 능력을 활성화하기 위해 프롬프트 엔지니어링을 활용하면서 동시에 예측된 각 감정 라벨에 대한 해당 근거를 생성하여 모델 출력의 해석가능성을 향상시키는 첫 번째 연구입니다. 3) 실험 결과는 제안된 PromptECL 방법이 널리 사용되는 4개의 ERC 데이터셋에서 새로운 최첨단 성능을 달성함을 보여줍니다. 특히, DailyDialog 데이터셋에서는 이전 최첨단 micro F1 점수를 7.67% 능가합니다.

2. Methods 번역

이 섹션은 제안된 PromptECL 방법에 대한 포괄적 개요를 제공합니다. 먼저 ERC 과제에 대한 간략한 개요를 제시하고, 이어서 전체 아키텍처와 그 구성 요소들에 대한 설명을 제공합니다.

2.1 과제 정의

대화에서의 감정 인식은 대화와 그 참가자들이 주어졌을 때, 각 발화에 해당하는 감정 범주를 식별하는 과제입니다. 구체적으로, 대화 U = {u1, u2, ..., uN}을 N개의 문장을 포함하는 연속적인 대화라고 하면, ui는 대화에서 i번째 문장의 내용을 나타냅니다. 각 문장 ui는 해당하는 화자 Sui ∈ S = {Su1, Su2, ..., SuN}를 가지며, 여기서 Sui는 i번째 문장의 화자를 나타냅니다.

이 과제의 주요 목표는 행복, 좌절, 화남, 놀람과 같은 사전 정의된 감정 범주 세트를 바탕으로, 대화 내 각 발화 ui와 연관된 감정 범주 ei를 정확하게 식별하는 것입니다. 이 분류는 주어진 대화 맥락만을 입력으로 사용하여 수행됩니다.

2.2 모델 아키텍처

모델 아키텍처는 주로 세 가지 모듈로 구성됩니다: 감정 정보 마이닝 모듈, 감정 인식 생성 모듈, 그리고 감정 추론 모듈입니다 (그림 2 참조). 감정 정보 마이닝 모듈에서는 원시 훈련 데이터가 데이터 증강 프롬프트 템플릿을 통해 LLM에 입력되어 잠재적 감정 정보를 마이닝합니다. 다음으로, 감정 인식 생성 모듈에서는 마이닝된 감정 정보가 원래 훈련 데이터를 향상시키는 데 사용됩니다. 동시에, 발화 이력, 이전 화자의 정체성, 현재 화자의 감정 변화와 같은 추가적인 잠재적 정보가 원래 훈련 데이터 자체에서 추출됩니다. 이 풍부해진 데이터는 훈련 프롬프트 템플릿을 통해 처리된 후 LLM을 미세조정하는 데 사용됩니다. 마지막으로, 감정 추론 모듈에서는 잠재적 정보가 대상 발화에서도 마이닝되어 추론 프롬프트 템플릿을 통해 미세조정된 LLM에 입력되어 발화의 감정 라벨과 감정 추론을 모두 얻습니다.

2.3 감정 정보 마이닝 모듈

LLM의 힘은 방대한 텍스트 데이터에 대한 사전 훈련 시 학습하는 언어적 특징과 맥락적 관계에서 나옵니다. 우리는 특정 프롬프트 템플릿을 설계하여 LLM을 안내하고, 감정과 관련된 뉴런을 활성화하도록 촉진하며, LLM이 생성한 감정 분석 결과를 통해 화자의 의도와 감정 변화의 잠재적 이유를 추측하도록 합니다.

화자의 암시적 정보를 심층적으로 탐구하기 위해, 본 연구는 "화자의 의도", "현재 문장의 감정 라벨", "감정 라벨에 대한 감정 이유"를 포함한 감정과 관련된 다차원 정보를 도입합니다. 대화 감정 분석 과제에서 LLM을 미세조정하고 이 감정 관련 정보를 충분히 활용함으로써, 후속 ERC 과제를 위해 모델 매개변수를 워밍업하는 것을 목표로 합니다. 구체적으로, 우리는 모델이 복잡한 대화 상황에서 감정을 분석하는 능력을 향상시키기 위해 감정적 특성에 대한 명확성과 이해를 얻도록 안내하는 다음과 같은 프롬프트 템플릿을 설계했습니다.

그림 3 a)의 데이터 증강 프롬프트 템플릿에 보인 바와 같이, "Prompt" = "Instruction" + "One-shot prompt" + "Format input/output"이며, 여기서 "Instruction" = "당신은 감정 분석 전문가입니다. 다음은 화자, 문장, 감정 라벨 형식의 여러 라운드 상황 대화의 로그 기록입니다. 로그 기록을 분석하고 감정 라벨에 대한 이유와 현재 화자의 의도를 한 문장으로 출력해주세요."입니다. 이 섹션의 주요 목표는 모델의 역할을 감정 분석 전문가로 정의하고, 대화 로그 내에서 감정 라벨을 해석하는 방법에 대한 자세한 지침을 제공하는 것으로, 이러한 감정의 근본적 원인과 화자의 의사소통 의도를 포함합니다. One-shot 프롬프트는 모델이 과제의 목표와 실행 방법을 더 잘 이해할 수 있도록 돕기 위해 과제의 구체적인 예제를 수동으로 생성하여, 더 적은 샘플로 과제 학습을 실현하는 것입니다. 이 섹션은 완전한 입력-출력 쌍 세트를 제공하고 모델이 대화에서 감정적 이유와 화자 의도를 추출하는 방법을 보여줌으로써 과제 이해에서 모델의 모호성을 줄입니다. 그리고 "Format input/output" = "로그는 다음과 같습니다: 대화 처리해야 할 문장은 다음과 같습니다: u_i, 현재 화자의 의도와 이 문장에 대한 감정적 이유만 출력하세요, 출력 형식: 의도: ti 감정적 이유: ri"입니다. 여기서 대화는 현재 이전 대화 기록을 의미하고, ui는 현재 입력 문장을 나타내며, ti는 화자의 잠재적 의도를, ri는 감정적 이유를 나타냅니다.

의도 및 감정 이유는 왜 생성하는가??

  • 이러한 감정정보를 후에 활용하는것이겠지?

2.4 감정 인식 생성 모듈

이 모듈은 현재 감정 상태의 예측과 감정 변화의 근본적 원인에 대한 추론을 모두 포함합니다. 이전 모듈에서 모델은 감정 변화의 근본 원인을 식별하고 설명하도록 안내되었습니다. 현재 감정 상태와 그 동적 변화의 분석을 통해, 모델은 감정적 의도와 감정 반응의 근본적 원인에 관한 해석적 설명을 생성할 수 있습니다.

감정 분석의 정확도를 향상시키기 위해, 모델의 출력을 바탕으로 감정 변화의 추론된 원인을 반복적으로 미세조정하는 개선 전략이 적용됩니다. 이 단계에서는 LLM의 내재적 감정 분석 능력을 활성화하기 위해 전문화된 프롬프트 템플릿이 사용됩니다.

그림 3 b)의 훈련 프롬프트 템플릿에 보인 바와 같이, "Prompt" = "Instruction" + "Previous Dialogue" + "Input Utterance" + "Emotion changes" + "Previous speaker's information" + "Format output"입니다. 여기서 "Instruction" = "당신은 대화 감정 인식 및 분석 전문가입니다.", "Previous Dialogue" = "'### ###' 기호 내에 둘러싸인 감정 대화 기록은 여러 화자를 포함합니다. ### U = {U1, U2, U3, ..., Ui-1} ###"이며, U는 현재 발화의 이전 i-1개 문장으로 구성된 역사적 맥락을 나타냅니다. "Input Utterance" = "<Speaker : Ui>"이고, Ui는 현재 문장을 나타냅니다. "Emotion changes" = "현재 화자의 감정 변화 이력 [e1, e2, ..., ek-1] 고려"이며, ei는 사용자의 감정 라벨을 나타내고, k는 현재 사용자에 대해 볼 수 있는 감정 변화 범위를 제어하는 슬라이딩 윈도우의 임계값을 나타냅니다. 그리고 "Previous speaker's information" = "이전 화자의 발화 [Ui-1]과 감정 [eprevious]"는 이전 화자의 감정 메시지를 촉진하는 데 사용됩니다. 마지막으로, "Format output" = "위 정보를 바탕으로, 현재 화자의 잠재적 의도를 분석해주세요. 현재 문장의 감정 라벨은 <label : "e">입니다. 감정 라벨에 대한 이유를 분석해주세요. 다음 형식의 내용만 출력할 수 있으며, 출력 형식은: label: xxx emotion reason: xxx, xxx는 당신이 출력하는 내용입니다"는 모델의 출력을 표준 형식으로 제어하는 데 사용됩니다.

Emotion changes는 정답값을 넣는것인가? 이것을 테스트시 어떻게 알지?

슬라이딩 윈도우 k는 감정 변동 모델링에서 중요한 역할을 합니다. 슬라이딩 윈도우는 모델이 역사적 감정에 주의를 기울이는 범위를 제어하는 데 사용되며, 현재 감정을 분석할 때 모델이 이전 k 시간 단계의 감정 상태를 종합할 수 있도록 보장합니다. 구체적으로, 시점 t에서 현재 화자의 감정 이력 Ht는 t-k부터 t까지의 감정 상태 시퀀스로 정의되며, 수식 1에 표현됩니다:

Ht = [Et-k, Et-k+1, ..., Et-1] (1)

Et는 시점 t에서의 감정 상태를 나타냅니다. 모델은 역사적 감정 정보 Ht를 입력의 일부로 받아들이고, 현재 문장의 특징 St와 함께 계산에 참여하여 현재 잠재적 감정 정보를 추론합니다. 수식 2에 표시된 바와 같이:

Ct = li + ri = LLM(Ht, St) (2)

여기서 li는 현재 문장의 감정 라벨을, ri는 현재 문장의 감정 라벨에 대한 이유를 나타냅니다. 이러한 방식으로, 모델은 역사적 감정 변화를 고려하여 현재 감정 상태를 더 정확하게 예측할 수 있습니다. 슬라이딩 윈도우 메커니즘을 바탕으로, 우리는 역사적 감정 정보 Ht와 현재 문장의 감정 특징 St를 종합하여 현재 순간의 감정 상태 Ct를 예측하며, 이는 수식 3으로 공식화됩니다:

Ct = li + ri = f(Ht, St) = f([Et-k, Et-k+1, ..., Et-1], St) (3)

이 접근법을 통해 모델은 제한된 맥락 내에서 감정 변화의 동적 예측을 수행할 수 있으며, 감정 분석 과제에서 성능을 향상시킵니다. 이전 단계에서 모델은 감정 변화의 근본적 원인을 식별하고 설명하도록 지시받았습니다. 현재 감정 상태와 그 변동의 분석을 통해, 모델은 감정적 의도와 감정 반응의 결정요인에 관한 설명을 생성합니다.

감정 분석의 정확도를 더욱 향상시키기 위해, 우리는 모델 출력에서 감정 변화의 추론된 원인을 바탕으로 LoRA 미세조정 전략을 사용합니다. 구체적으로, 모델은 각 예측에서 감정 상태와 그 변화 이유를 생성하고, 이러한 결과를 바탕으로 감정 분석 과제에서 더 정확하게 수행하도록 LLM을 미세조정합니다. 미세조정 과정은 예측된 모델 감정 상태 Ĉt와 실제 감정 상태 Ct 간의 오차를 계산하는 감정 분석 과제의 교차 엔트로피 손실 함수를 최소화함으로써 달성할 수 있습니다. 손실 함수는 수식 4에 표시됩니다:

L(Ct, Ĉt) = -log p(Ĉt | Ht, St) (4)

역전파 알고리즘을 통해, 손실 함수는 전체 감정 예측 과정에서 오차의 크기를 정량화하고, 이후 이 오차에 대응하여 모델의 내부 매개변수를 조정하여 감정 변화를 해석하는 능력을 향상시킵니다.

2.5 감정 추론 모듈

감정 추론 모듈에서는 감정 분류를 위해 미세조정된 LLM을 활용합니다. 감정 분류의 정확도를 향상시키기 위해, 모델은 여러 라운드의 대화에서 맥락적 정보를 입력으로 통합합니다. 또한 예측 과정을 안내하기 위해 특별히 설계된 추론 프롬프트를 사용합니다. 이러한 프롬프트는 대화의 감정적 흐름에 맞추고 감정 변화를 정확하게 포착하도록 제작됩니다. 대화 이력을 활용함으로써, 모델은 주요 정보를 추출하고 현재 화자에게 적절한 감정 라벨을 할당하는 데 더 잘 갖추어집니다.

추론 프롬프트의 설계는 그림 3 c)에 표시되어 있으며, ERC 과제에서 각 입력은 네 부분으로 구성됩니다: 지침, 역사적 내용, 라벨 설명, 시연 검색. 구성 요소 "Prompt" = "Instruction" + "Previous dialogue" + "Input utterance" + "Emotion changes" + "Previous speaker's information" + "Format output"은 훈련 중 사용된 훈련 프롬프트 템플릿과 일치합니다. "Format output" = "현재 화자의 잠재적 의도를 분석하고, <중립, 기쁨, 평화, 강력함, 무서움, 화남, 슬픔>에서만 선택할 수 있는 문장의 감정 라벨을 선택하며, 감정 라벨에 대한 이유를 제공해주세요."입니다.

추론 과정에서, 우리는 LLM이 최적의 감정 라벨을 선택하기 위해 탐욕적 검색 전략을 사용합니다. 구체적으로, 모델은 가능한 라벨들에 대한 확률 분포를 출력합니다. P(Y | x)를 입력 대화 맥락 x가 주어졌을 때 감정 라벨 세트 Y의 조건부 확률 분포라고 하면, Y ⊂ Rn은 n개의 가능한 라벨 범주 세트를 나타냅니다. 각 입력 맥락 x에 대해, 탐욕적 검색의 목표는 이 확률을 최대화하는 라벨 ŷ를 식별하는 것이며, 다음과 같이 공식적으로 표현됩니다:

ŷ = arg max P(y | x), Y ⊂ Rn (5) y∈Y

추론 중에, 모델은 각 잠재적 감정 라벨에 대한 조건부 확률을 계산하고 최대 확률에 해당하는 라벨을 출력 ŷ로 결정론적으로 선택합니다. 이 전략은 효율적이고 직접적인 추론 과정을 보장하여 대화 내에서 빠르고 정확한 감정 분류를 촉진합니다.

감정 추론 모듈에서 emotion history는 어떻게 채운다는 거지?

이렇게 그래서 데이터 만들어서 학습한다는듯?

입력

  • Instruction: You are an expert in dialogue emotion recognition and analysis.

  • Previous Dialogue: 
  • ###Ses05F_impro03_F: Okay, so big news.
  • Ses05F_impro03_M: What? Come on, what?
  • Ses05F_impro03_F: I'm getting married.
  • Ses05F_impro03_M: Shut up.
  • Ses05F_impro03_F: Yeah.###

  • Current Input: <Ses05F_impro03_M: No way.>

  • Speaker's Intention and Emotional Reason (생성된 정보):
  • Intention: Expressing disbelief about surprising news
  • Emotional reason: Excited reaction to unexpected marriage announcement

  • Emotion History: [unknown, excited] (현재 화자의 이전 감정들)

  • Previous Speaker Info: Ses05F_impro03_F: "Yeah." [excited]

  • Format: Based on the above information, please analyze the potential intent of the current speaker. The emotion label of the current sentence is <label:"excited">. Please analyze the reason for the emotion label. Only allow you to output the following format content, the output format is: label: xxx emotion reason: xxx

인퍼런스시 기대하는 출력

  • label: excited emotion reason: The speaker is expressing surprise and excitement about the unexpected marriage news, showing heightened emotional response to the revelation.

3. Experiments 번역

3.1 구현 세부사항

본 연구는 대화 감정 인식 연구를 위해 널리 사용되는 4개의 벤치마크 데이터셋을 사용합니다: IEMOCAP, MELD, EmoryNLP, DailyDialog. 데이터셋에 대한 포괄적 설명은 부록 A.1에서 찾을 수 있습니다.

각 데이터셋에 대해, 모델 성능을 평가하기 위해 가중 평균 F1 점수(Weighted-F1)를 보고합니다. 구체적으로, DailyDialog 데이터셋의 경우 모델 성능을 평가하기 위해 마이크로 평균 F1 점수(Micro-F1)도 함께 보고합니다. 이후 이러한 데이터셋에서 이전 연구들과 비교한 평균 성능을 보여줍니다.

감정 정보 마이닝 모듈에서는 Qwen2.5-72B-instruct 모델을 감정 정보 향상 모델로 사용합니다. 감정 인식 생성 모듈에서는 Qwen2.5-7B-instruct 모델을 기본 모델로 사용하고, 미세조정 방법으로는 Float16 데이터 타입의 LoRA 방법을 선택합니다. 화자의 감정 범위 슬라이딩 윈도우는 {2, 4} 사이이며, 모델의 효과를 최적화하기 위해 각 과제에 따라 윈도우가 동적으로 조정됩니다.

모델 사이즈 비교가 공정하지가 않음

이 모델말고 작은 모델에서도 작동?

3.2 비교 방법들

포괄적인 평가를 위해, 우리의 접근법을 다음 기준선들과 비교합니다:

1) 순차 기반 모델들: EmotionIC (Liu et al., 2024), SACL (Hu et al., 2023a), DialogueCRN (Hu et al., 2021)

2) 그래프 기반 모델들: S+PAGE (Liang et al., 2022), GraphCFC (Li et al., 2024)

3) Transformer 기반 모델들: COSMIC (Ghosal et al., 2020), BERT-ERC (Qin et al., 2023), EACL (Yu et al., 2024), AccWR (Xue et al., 2023), InstructERC (Lei et al., 2023a), BiosERC (Xue et al., 2024)

llm을 이용한 간단한 베이스라인과도 비교해볼 필요가 있음

Few-shot / CoT 등

3.3 실험 결과 및 분석

관련 데이터셋의 실험 절차와 평가 지표에 따라, 본 섹션은 IEMOCAP, MELD, EmoryNLP, DailyDialog 데이터셋에 대한 실험을 각각 분석합니다. 본 논문의 실험에서 데이터셋 분할과 실험 절차가 각 데이터셋의 실험 규격에 완전히 부합하므로, 표에 요약된 실험 결과는 해당 연구 논문들에서 보고된 것들에서만 독점적으로 도출되었습니다.

구체적인 실험 결과는 표 1에 표시되어 있으며, 순차 기반 모델, 그래프 기반 모델, Transformer 기반 모델을 포함한 여러 벤치마크 데이터셋에서 다양한 모델들의 F1 점수 성능을 자세히 보여줍니다. 우리의 방법인 PromptECL은 여러 데이터셋에서 상당한 이점을 보여주며, 특히 IEMOCAP, EmoryNLP, DailyDialog 데이터셋에서 현재 SOTA 성능을 달성하여 PromptECL 프레임워크의 효과성을 충분히 증명합니다.

구체적으로, PromptECL의 IEMOCAP 데이터셋에서의 Weighted-F1 지표는 현재 SOTA 방법인 SDT 모델보다 0.72% 높고, EmoryNLP 데이터셋에서는 Weighted-F1 지표가 현재 SOTA 방법인 BiosERC 모델을 0.36% 능가하며, DailyDialog 데이터셋에서는 Micro-F1 지표가 현재 SOTA 방법인 S+PAGE 모델 대비 7.67% 향상되어 현재 SOTA 방법들을 훨씬 능가합니다. PromptECL은 MELD 데이터셋에서 최적 성능을 달성하지 못했지만, 그 성능은 여전히 최고 수준에 근접해 있으며, 이는 주로 두 가지 이유 때문입니다: 첫째, MELD 데이터셋은 텍스트 정보 외에도 시각적, 음성적 정보를 포함하는 다중모달 데이터셋인 반면, 우리 실험에서는 단일 텍스트 모달리티만 사용했습니다; 둘째, 다른 세 데이터셋과 비교했을 때, MELD 데이터셋은 맥락적 정보 측면에서 더 제한적이어서 우리의 특징 추출과 감정 표현 이해에 일부 제약을 가합니다. 한편, IEMOCAP, EmoryNLP, DailyDialog 세 데이터셋에서 우리 방법의 평균 성능은 현재 SOTA 방법인 InstructERC 모델을 0.36% 능가하여, PromptECL이 감정 표현과 맥락적 정보 포착 측면에서 높은 적응성과 일반화 가능성을 가지고 있음을 나타냅니다.

3.4 절제 연구

ablation 단어 설명 부족

PromptECL 프레임워크의 각 모듈의 효과성을 검증하기 위해, 네 세트의 실험을 통해 체계적으로 분석합니다. 감정 정보 마이닝, 잠재적 정보 마이닝, 감정 인식 생성 모듈을 점진적으로 제거하고 기준선 모델과 비교하여 각 구성 요소가 감정 분류 성능에 미치는 기여도를 정량적으로 평가합니다. 실험 결과는 여러 모듈과 함께 작업하는 것이 대화 시나리오에서 감정을 인식하는 능력을 상당히 향상시킨다는 것을 확인합니다.

1) 감정 정보 마이닝(EIM) 제거: 절제 연구는 감정 정보 마이닝 모듈을 제거하고 잠재적 감정 특징을 가진 원래 훈련 데이터를 사용하여 직접 LLM을 미세조정합니다. 표 2에 보인 바와 같이, 이는 MELD에서 1.00%(Weighted F1), EmoryNLP에서 3.95%, DailyDialog에서 6.34%(Micro-F1)의 성능 저하를 가져와 감정 특징 마이닝의 중요성을 보여줍니다. 그러나 IEMOCAP은 1.54% Weighted-F1 향상을 보였는데, 이는 긴 대화에서 다중모달 맥락적 특징과 암시적 감정 표현에 대한 강한 의존성 때문으로, 명시적 감정 마이닝보다 대화 이력 모델링이 더 중요해지기 때문입니다.

감정정보 마이닝을 안했다는 것인듯

  • 의도: Expressing disbelief about surprising news 
  • 감정이유: Excited reaction to unexpected marriage announcement

2) 잠재적 정보 탐색(PIE) 제거: 이 절제 연구는 훈련과 추론 모두에서 잠재적 정보 탐색 모듈을 제거합니다. LLM은 감정 마이닝 모듈이 원시 데이터에서 추출한 잠재적 감정 특징만을 사용하여 미세조정되며, 추론에서는 잠재적 정보 마이닝과 관련 프롬프트 템플릿을 제거합니다. 표 2의 결과는 상당한 성능 저하를 보여줍니다: 5.16%(MELD), 5.74%(EmoryNLP) Weighted-F1, 10.36%(DailyDialog) Micro-F1 감소. 특히, IEMOCAP은 28.46% Weighted-F1 저하를 겪어, 제거된 모듈이 촉진하는 맥락적 정보 모델링에 대한 극도의 의존성을 드러냅니다. 이는 잠재적 정보 마이닝이 LLM의 맥락적 감정 이해를 향상시키는 데 중요한 역할을 한다는 것을 확인합니다.

컨텍스트 관련된거 안썼다는 듯

  • History utterances (이전 발화들)
  • Previous speaker's information (이전 화자 정보)  
  • Emotional Changes (감정 변화 이력)
  • Speaker's intention (화자 의도)

3) 감정 인식 생성(EPG) 제거: 이 실험은 추론 중 정보 탐색을 위한 프롬프트 템플릿을 유지하면서 LLM의 내재적 감정 인식을 비활성화합니다. 표 2의 결과는 상당한 성능 저하를 보여줍니다: 13.58%(IEMOCAP), 12.6%(MELD), 2.23%(EmoryNLP) Weighted-F1 감소와 DailyDialog에서 8.95% Micro-F1 감소. IEMOCAP과 MELD에서의 급격한 감소는 활성화된 감정 인식에 대한 의존성을 부각시키며, 특히 복잡한 맥락적 상호작용 모델링에서 그렇습니다. 이는 감정 인식 미세조정이 LLM의 잠재적 감정 이해 능력을 활성화하는 데 필수적임을 확인합니다.

LoRA 학습 안했다는 듯 (학습안하고 프롬프트로만 시도했다는거 같음)

  • 입력: [맥락 + 현재 문장 + 감정 이력]
  • 출력: "label: excited emotion reason: The speaker is..."

4) PromptECL 제거: 이 연구는 전체 프레임워크를 비활성화하고 기본 LLM을 직접 감정 분류에 사용하여 PromptECL을 평가합니다. 표 2의 결과는 치명적인 성능 저하를 보여줍니다: 37.68%(IEMOCAP), 9%(EmoryNLP), 7.25%(MELD) Weighted-F1 감소와 DailyDialog에서 11.53% Micro-F1 감소. IEMOCAP에서의 극도의 37.68% 급락은 특히 긴 대화에서 복잡한 다중모달 감정 단서를 해독하는 데 필수적인 PromptECL 내 맥락적 모델링 메커니즘에 대한 중요한 의존성을 강조합니다. 이는 구조화된 프롬프트 엔지니어링과 잠재적 특징 탐색을 통해 LLM의 감정 이해를 향상시키는 프레임워크의 효과성을 포괄적으로 검증합니다.

3.5 세분화된 감정 분류 실험

이 실험은 제안된 PromptECL 모델의 세분화된 감정 분류 과제에서의 성능을 체계적으로 평가하고, IEMOCAP, MELD, EmoryNLP 데이터셋에서 주류 모델들(예: EmotionIC, DialogueCRN, SACL)과 벤치마킹하여 다중 클래스 감정 인식에서의 효과성과 견고성을 평가하는 것을 목표로 합니다. PromptECL은 세분화된 감정 분류 과제에서 강력한 전반적 성능을 보여주며, 다중 범주 감정 인식 시나리오에서 효과성과 견고성이 추가로 검증되었습니다.

표 3에 보인 바와 같이, PromptECL은 IEMOCAP 데이터셋에서 73.85%의 평균 정확도를 달성하여 모든 기준선 모델을 능가했습니다. "Excited"에서 80.92% 정확도, "Frustrated"에서 71.22%와 같은 동적 감정 범주에서 특히 강력한 성능을 보여 대화에서 복잡한 감정 역학을 포착하는 능력을 보여줍니다. 또한 "Sad"에서 83.6%, "Neutral"에서 73.63%를 달성하여 더 일반적인 감정에서도 높은 정확도를 유지하여 다양한 감정 범주에서의 균형 잡힌 성능을 추가로 검증했습니다.

표 4에 보인 바와 같이, PromptECL은 MELD 데이터셋에서 50.08%의 평균 정확도를 달성했으며, 이는 SACL의 50.76%보다 약간 낮지만 저빈도 감정 범주에서 우수한 성능을 보여줍니다. 구체적으로, "Disgust"에서 34.43% 정확도, "Sadness"에서 43.03%와 같은 감정에서 기준선 모델들을 상당히 능가했습니다.

표 5에 보인 바와 같이, PromptECL은 EmoryNLP 데이터셋에서 33.77%의 평균 정확도를 달성하여 모든 기준선 모델을 능가했습니다. Powerful에서 28.07%, Mad에서 45.07%와 같은 긴 꼬리 감정 범주와 모호한 범주에서 주목할 만한 이점을 보여 희소하고 도전적인 감정 데이터를 처리하는 효과성을 부각시켰습니다.

이러한 결과들은 특히 동적이고 저빈도 범주에서 세분화된 감정 분류에서 PromptECL의 효과성을 확인합니다. 프롬프트 전략을 통합함으로써, 대화 맥락에서 복잡한 감정 상태를 성공적으로 포착하고 데이터셋 전반에 걸쳐 강력한 일반화를 보여줍니다.

4. 결론

본 연구는 퓨샷 프롬프트 템플릿 학습 전략을 통해 감정 분류 과제에서 LLM의 잠재적 능력을 효과적으로 활성화하는 PromptECL 방법을 제안합니다. MELD 데이터셋에서의 성능이 현재 SoTA 시스템보다 약간 뒤처지지만, 절제 연구와 세분화된 감정 분류 실험은 감정 판별력을 향상시키는 데 있어 프롬프트 템플릿 학습 메커니즘의 핵심적인 역할을 확인합니다. PromptECL은 ERC 과제에 대한 새롭고 효과적인 솔루션을 제공하며, 강력한 확장성과 적응성을 가지고 있어 미래에 더 많은 실용적 응용에서 촉진되고 적용될 것으로 기대됩니다.

댓글