NL-176, Multi-domain Emotion Detection using Transfer Learning, ARR review 2302 (재리뷰)
공유 링크 만들기
Facebook
X
Pinterest
이메일
기타 앱
◼ Comment
지난번 논문을 수정한건데, 컨트리뷰션은 비슷하다.
논문하고 비교할 베이스라인들 추가하고 방법론 설명도 약간 다듬은 것 같다.
결과나 분석도 추가적으로 했는데 지난번과 다른 인사이트를 준 것 같지는 않다.
0 Abstract
텍스트, 특히 이메일, 게시물 또는 트윗과 같은 비공식적이고 즉흥적인 메시징에서 감정을 감지하는 작업은 최종 애플리케이션의 요구 사항과 사용 도메인에 따라 그 범위와 깊이가 달라집니다.
연구에서 가장 많이 보고된 감정 범주에는 Ekman의 감정 모델(Ekman, 1999), (Plutchik, 1984)이 있지만, 애플리케이션 도메인에 따라 보다 전문적인 감정 분류가 필요한 경우가 많으며, 이에 대한 훈련에 사용할 수 있는 주석이 달린 데이터 세트가 충분하지 않은 경우가 많습니다.
또한 도메인마다 감정 라벨에 대한 인식과 정의가 다르기 때문에 더욱 복잡해집니다.
다양한 산업과 애플리케이션에서 공감 시스템이 인기를 끌면서 여러 도메인에 걸쳐 적응성과 복원력을 높이기 위한 다중 도메인 감정 감지 작업이 대두되고 있습니다.
이 백서에서는 성능 손실을 최소화하면서 모든 도메인과 감정 레이블 세트에 적용할 수 있는 감정 감지의 일반화된 접근 방식을 제시합니다.
멀티 도메인 감정 모델은 추가 교육이나 미세 조정 없이 모든 감정 감지 애플리케이션에 연결할 수 있습니다.
공개적으로 사용 가능한 SemEval 2018 데이터 세트와 2017년 프랑스 대선과 관련된 트윗으로 구성된 새로운 데이터 세트에 대한 접근 방식의 제로 샷 및 소수 샷 성능을 보여줍니다.
이 접근 방식은 모델이 원래 학습된 영역과 다른 영역을 포함하여 이전에 모델에서 볼 수 없었던 감정 범주를 예측하는 데 있어 우수한 성능을 보여주었습니다.
또한 목표 도메인에 주석이 달린 작은 데이터 세트를 사용하여 모델 성능을 향상시킬 수 있는 몇 가지 방법을 제안합니다.
1 Introduction
언어는 감정을 표현하고 청중의 감정적 반응을 불러일으킬 수 있는 매우 강력한 도구입니다.
따라서 텍스트의 감정적 내용을 효과적으로 분석할 수 있는 도구가 의료(티바탄사쿨 2014), 교육(카란 2022), 주식 시장(아슬람 2022), 정치 오피니언 마이닝(카봇 2020)에 이르기까지 다양한 분야에서 활용되고 있습니다.
그렇다면 어떤 감정이 중요할까요?
분명히 시장에 출시된 새로운 전자 기기에 대한 토론에 수반될 수 있는 감정은 선거를 앞두고 정치 후보를 비교할 때 발생할 수 있는 감정과는 완전히 다릅니다.
영역과 맥락에 따라 서로 다른 감정 세트를 감지해야 할 수도 있습니다.
최근 연구에서는 감정 분류 모델의 학습 데이터로 사용하기 위해 많은 감정 라벨이 지정된 데이터 세트가 구축되었습니다.
이러한 데이터 세트 중 상당수는 Ekman 또는 Plutchik의 감정 모델의 상위 집합 또는 하위 집합인 감정 라벨 세트를 가지고 있습니다(Ekman, 1999; Plutchik, 1984).
예를 들어, 정리된 균형 잡힌 감정 트윗 데이터 세트에는 사랑, 감사, 죄책감 등 6가지 Ekman 감정에 대한 레이블이 있는 반면, EmoInt 데이터 세트에는 혐오와 놀라움을 제외한 6가지 Ekman 감정 중 4가지 감정만 있습니다(Mohammad and Bravo-Marquez, 2017).
결과적으로 감정 레이블이 지정된 텍스트 데이터는 많지만, 많은 데이터 세트가 호환되지 않아 단일 모델 학습에 사용하기 어렵습니다.
또한 새로운 라벨 세트가 더 적합하거나 바람직한 도메인에서 새로운 감정 감지 문제가 발생하고 이 새로운 라벨 세트가 기존 감정 라벨 세트의 하위 집합이 아닌 경우, 학습 데이터가 없는 상황에 직면하게 됩니다.
이러한 새로운 문제에 대한 해결책으로는 관련 라벨 세트로 새로운 데이터 세트를 큐레이팅하거나, 준지도 또는 비지도 기법을 사용하거나, 제로 샷 및 소수 샷 접근 방식을 사용하는 방법이 있습니다.
제로 샷 감정 감지의 기존 작업은 작업을 텍스트 수반 문제로 구성하거나(Yin 2019), 입력 텍스트의 임베딩과 분류를 위한 클래스 레이블 및 설명을 활용합니다.
워드넷과 같은 외부 소스에서 감정 레이블 또는 그 정의만 사용하는 것은 각 감정 레이블의 개념이나 애플리케이션 영역의 근본적인 복잡성에 대한 이해를 통합하지 못합니다.
심리학 이론의 여러 연구에 따르면 감정 정의는 영역이나 사람에 따라 보편적이지 않으며, 사회 문화적 맥락과 사건에 크게 영향을 받습니다(Averill, 1980).
또한 이러한 접근 방식은 기대감이나 죄책감과 같은 보다 복잡한 감정을 구성하는 관계와 상호 의존성을 포착하지 못합니다.
이 백서에서는 텍스트에서 감정을 감지하는 새로운 제로샷 접근법을 제안하여 보이지 않는 도메인이나 대상 레이블 세트에 적용할 수 있는 일반화된 감정 감지 모델을 구축합니다.
이 방법은 각 라벨의 해석을 신중하게 통합하고 상호 의존성을 활용하여 대상 도메인에서 더 가치 있는 결과를 생성합니다.
다중 도메인 전이 학습 접근법의 단계는 다음과 같습니다:
첫째, 기존의 감정 라벨이 지정된 소셜 미디어 데이터 세트의 계층적 구조와 최적화 전략을 사용하여 다중 도메인 감정 모델을 생성합니다.
둘째, 이 모델의 출력을 원하는 110개의 감정 라벨 세트에 가중치를 부여한 선형 조합을 개발합니다.
셋째, (선택 사항) 도메인 내 주석 데이터를 사용하여 조합 가중치와 분류 임계값을 미세 조정하여 목표 도메인 성능을 개선합니다.
Overall, the contributions of this paper are:
여러 도메인에 배포할 수 있는 트윗에 대한 일반화된 감정 감지 모델 개발
일반화된 모델을 보이지 않는 애플리케이션이나 도메인에 적용하기 위한 전이 학습 방법
복잡하거나 특수한 감정 라벨을 기존의 감정 라벨로 정의하기 위한 잘 정의된 방법론
도메인 내 주석이 달린 데이터의 가용성을 통해 모델의 제로 샷 성능을 향상시키는 다양한 방법
3 Methodology
3.1~3.4는 동일하므로 이전 포스팅 보면됨
3.4 Training and Fine-tuning
여기서 추가적인 질문
Goemotions에서 Joy 데이터를 만든다는 것은, 위 처럼 joy의 output labels에 해당하는 발화만을 모아서, 학습시킨다는 것
Ekman도 마찬가지고..
근데, 굳이 이렇게 왜하지? 그냥 Goemotions 전체 데이터로 학습하면 되는거 아닌가?
3.5 Domain-Specific Hierarchical Label Transfer
Plutchik의 감정 바퀴(Plutchik, 1984)에서 감정의 관련성과 대상 도메인의 라벨 정의에 대한 이해를 고려하여 도출된 가중 선형 조합을 사용하여 모델 출력의 점수를 원하는 라벨 세트 E의 점수에 매핑합니다.
계층적 감정 모델 출력에서 E ∈ 모든 감정으로의 매핑을 결정하는 일반적인 규칙 집합은 다음과 같습니다:
여기서 ws,ek,subek은 1로 설정하거나 대상 도메인 유효성 검사 세트(있는 경우)에서 성능 지표를 최대화하도록 미세 조정할 수 있는 가중치입니다.
즉, e에 대한 최종 점수는 용어의 가중치 합계이며, 여기서 각 용어는 e와 관련된 감정, 에크만 감정 및 하위 감정 하위 카테고리 트리플에 대한 점수의 곱입니다.
예를 들어, 출력 감정인 낙관주의의 경우, (Sent[positive] ∗ EK[joy] ∗ Joy[optimism])라는 용어가 있을 수 있습니다.
근데 결국 이 방법은, 타겟 감정이 무엇과 연관되는지 다 매핑을 직접하지 않는가?
이에 대한 가이드라인이 중요할 것 같다.
실제 zero-shot setting에서는 어떻게 감정간의 관계를 매핑하나?
주어진 데이터세트에서는 저자가 성능 향상을 위해 다양한 실험을 하여 성능 좋은 매핑테이블을 했을거 같다.
또한 sentiment 모델, Ekman 모델, J 모델 등을 거치면서 모델의 오차들이 가중되서 에러가 커지는 것이 아닌가?
Further, any available in-domain datasets can be used as a validation set for two purposes:
1) 각 감정 라벨에 대한 최적의 분류 임계값 집합을 찾습니다,
2) 목표 지표에 대한 감정 점수의 선형 매핑 가중치를 미세 조정합니다. 각 대상 클래스에 대한 임계값을 선택하여 유효성 검사 데이터 세트에서 해당 클래스의 F1 점수를 최대화함으로써 분류 임계값을 미세 조정합니다.
각 individual 타겟 라벨 매핑에 차등 진화를 연속적으로 적용하여 매핑 가중치를 미세 조정하여 검증 데이터 세트에 대한 해당 라벨의 F1 점수를 최대화합니다.
먼저 가중치를 최적화한 다음 각 라벨에 대한 임계값을 선택함으로써 매핑 가중치와 분류 임계값을 모두 미세 조정합니다.
라벨별 분류 임계값과 매핑 가중치 매개변수에 대한 자세한 내용은 예제와 함께 부록 C에 나와 있습니다.
다음 섹션에서는 새로운 감정 라벨 세트에 대한 점수를 생성하는 데 있어 이러한 일반적인 규칙 집합을 두 가지 다른 도메인에 적용하고 평가하여 그 효율성을 보여줍니다.
4 Experiments
이 섹션에서는 일반적인 플루치크나 에크만 감정보다 더 큰 레이블 세트를 포함하는 벤치마크 감정 데이터 세트에서 우리의 접근 방식을 평가하기 위해 수행한 실험에 대해 간략하게 설명합니다.
여러 영역과 라벨에 걸쳐 우리 방법의 적응성을 더 자세히 설명하기 위해, 특수한 감정 라벨 세트로 주석이 달린 프랑스 선거 데이터 세트에 대해 두 번째 실험을 수행합니다.
이러한 보이지 않는 영역과 감정 라벨에 다중 도메인-감정 모델을 어떻게 적용했는지 설명합니다.
섹션 2에서 언급한 바와 같이 감정 분류에 사용할 수 있는 몇 가지 방법이 있지만, 모두 SOTA 점수를 얻기 위해 도메인 내 학습이 필요합니다.
저희의 접근 방식을 널리 사용되는 반지도 및 제로 샷 기법과 비교해보았습니다.
우리의 접근 방식은 학습 데이터 없이도 모든 도메인에서 안정적인 성능을 발휘하고, 소량의 도메인 내 데이터 세트로도 강력한 결과를 얻을 수 있다는 점에서 두드러집니다.
평가를 위해 아래 실험을 수행했습니다:
Zero-shot mode:
모델 앙상블을 대상 도메인에 맞게 조정하여 테스트 세트에 대한 감정 분류.
또한 앙상블에서 감정 구성 요소를 제거한 상태에서 이 실험을 반복하여 그 기여도를 입증합니다.
In-domain fine-tuning mode:
사용 가능한 도메인 내 데이터의 작은 하위 집합을 사용하여 분류 임계값과 매핑 가중치를 미세 조정할 수 있습니다.
4.1 Baselines
We analyze the results of our model against the following baselines:
Zero-shot textual entailment: (TE)
Yin의 작업에 따라 각 감정 레이블을 가설로 변환합니다: "This text expresses ."
BART MNLI 모델을 사용하여 entailment and contradiction 점수를 생성하고 임계값을 설정하여 각 라벨에 대한 이진 출력을 생성합니다.
프롬프트+NLI로 각 감정에 대한 점수를 낸다는 듯
트위터에서는 SBERT를 사용해 입력을 얻고 임베딩에 라벨을 붙입니다.
그런 다음 코사인 유사도를 사용하여 임베딩 공간의 라벨에 대한 근접성을 기준으로 트윗에 라벨을 지정합니다.
label이랑 문장 임베딩간의 거리를 계산했다는 건가?
트위터에서는 기존 감정 데이터 세트(CBET 및 GoEmotions)를 사용하여 6개의 Ekman 라벨에 대해 트위터-RoBERTa-기반 감정 사전 학습 모델(Barbieri 2020)을 미세 조정하고, 대상 도메인의 라벨 세트에 대해 이러한 모델을 테스트합니다.
이러한 모델의 레이블 집합을 벗어난 감정에 대한 출력은 0으로 설정됩니다.
4.2 ~ 4.3은 이전 버전과 같은듯
5 Results and Analysis
반지도 실험의 결과는 기존의 감정 데이터셋이 새로운 영역에서 감정을 예측하는 데 어떻게 활용될 수 있는지 보여줍니다.
SemEval의 경우, 대부분의 목표 레이블이 GoEmotions 및 CBET 데이터 세트에 존재하며, 6개의 Ekman 레이블에 대한 성능이 제안된 모델의 제로 샷 성능보다 높았습니다(표 6).
이는 데이터 세트 간에 각 감정 레이블의 기본 의미가 충분히 겹쳐서 성능을 유지할 수 있음을 시사합니다.
반면, 프랑스 선거 데이터 세트의 경우 라벨은 새로운 것이거나 기존의 라벨을 조합한 것으로, 일부는 Ekman 감정이고 일부는 더 세분화되어 있습니다(표 7).
성능이 현저히 떨어지며, 이는 어노테이터가 해석한 감정의 의미가 학습 데이터 세트의 감정의 의미와 일치하지 않음을 시사합니다.
말 그대로, 룰이 완벽하지 않기 때문에 이에 대한 noise가 있는게 한계일거 같음
하지만 그래도 zero-shot 성능이 좋다면 뭐 괜찮을듯?
이러한 지식을 통합하기 위해 감정 이론과 라벨 설명을 기반으로 한 매핑에 의존합니다.
이러한 결과는 단순히 다른 도메인의 데이터를 사용하여 새로운 도메인의 감정을 예측하는 것은 감정 라벨 세트가 완전히 새롭지 않고 데이터 세트 간에 유사한 정의를 가진 애플리케이션에서만 사용할 수 있음을 보여줍니다.
두 데이터 세트에 대한 제로 샷 실험은 보이지 않는 영역에서도 감정 모델 앙상블의 적응력을 보여줍니다(표 5).
기존의 제로 샷 접근 방식은 SemEval에서는 더 나은 성능을 보였지만, 프랑스 선거 데이터 세트의 완전히 새로운 감정 레이블 세트에서는 성능을 유지하지 못했습니다.
그 이유는 SemEval 레이블이 널리 사용되는 Ekman 감정의 직접적인 상위 집합이라는 사실에 기인합니다.
각 감정 라벨의 기본 의미는 간단하기 때문에 사전 학습된 대규모 모델을 사용하여 텍스트 수반 또는 문장 임베딩 방법으로 쉽게 감지할 수 있습니다.
semeval의 각 감정 레이블은 명확하고 널리 사용되는 것이라? 다른 제로샷이 효과적일 수 있다는 것?
프랑스 선거 라벨은 훨씬 더 특이하며 대상 도메인에 따라 라벨 범주로 그룹화되어 있습니다.
예를 들어, love(사랑)과 admiration(존경)이라는 레이블은 정치적 영향력 캠페인에서는 동의어일 수 있지만 일반적인 감정 분류에서는 그렇지 않습니다.
표 6과 7에서 반지도 방식과 제로샷 방식은 SemEval 데이터 세트의 기쁨 카테고리에서는 높은 점수를 받았지만, 프랑스 대선 데이터 세트의 기쁨/행복 카테고리에서는 높은 점수를 받지 못한 반면, 우리 모델은 비교적 안정적인 성능을 유지했습니다.
감정 모델 앙상블은 특수한 라벨 정의와 관계를 감정 분류 작업에 신중하게 통합하여 일반적인 제로 샷 분류 방법 중에서 돋보입니다.
또한, 감정 모델을 앙상블에 추가하면 모든 실험에서 점수가 향상되어 감정 감지 작업에 감정의 영향이 중요하다는 것을 확인할 수 있습니다.
도메인 내 미세 조정 모드의 경우, SemEval에 사용되는 검증 데이터 세트는 지도 접근 방식에 사용되는 훈련 데이터 세트 크기의 약 12%이지만 모델 성능을 44% 향상시킵니다.
프랑스 선거 데이터셋의 경우, 여러 감정을 하나의 레이블에 그룹화함으로써 발생하는 모호성으로 인해 주석자 간 일치도가 매우 낮고, 서로 다른 시점에 제공된 검증 데이터셋과 테스트 데이터셋 간의 주석에 불일치가 발생했습니다.
동일한 데이터세트에서 보다 일관된 주석을 달거나 미세 조정 데이터를 샘플링하면 SemEval과 유사한 성능 향상을 가져올 수 있을 것으로 생각합니다.
6 Conclusion
소셜 미디어 텍스트에 대한 감정 분류 접근 방식은 대상 레이블 세트에 관계없이 모든 도메인에 적용할 수 있습니다,
이 모델은 도메인 내 학습 데이터나 미세 조정 단계가 필요하지 않지만, 미세 조정을 위해 일부 도메인 내 데이터를 활용하면 성능을 향상시킬 수 있습니다.
사용자는 라벨 세트 간 감정의 기본 의미의 차이를 설명하는 계층적 세분화된 감정 및 감정 점수를 신중하게 매핑해야 합니다.
이러한 두 가지 매핑을 새로운 타겟 라벨 세트에 적용하여 이 아이디어를 입증했습니다.
실험 결과, 여러 도메인과 데이터 세트에서 범용 제로샷 모델을 사용하는 것이 새로운 타겟 라벨을 감지하는 데 항상 충분하지 않을 수 있으며, 모델을 훈련하거나 미세 조정하지 않고도 도메인 지식을 분류 작업에 통합할 수 있는 방법이 있다는 것을 알 수 있었습니다.
7 Limitations
실험 결과, 트위터의 접근 방식이 영어 트윗의 다양한 타겟 도메인에 성공적으로 적용될 수 있음을 확인했습니다.
사전 학습된 모든 모델은 영어로 학습되었기 때문에 다국어 환경에서는 잘 일반화되지 않습니다.
향후 작업에는 XLM-RoBERTa와 같은 다국어 사전 학습 모델을 사용하고 감정 모델 앙상블을 구축하기 위해 비영어권 언어로 된 감정 주석이 달린 학습 데이터를 생성하는 것이 포함될 것입니다.
또한 이러한 접근 방식은 사용자가 대상 레이블에 대한 강력하고 구체적인 정의를 가지고 있다고 가정합니다;
이 접근 방식은 라벨 매핑의 품질과 사용 가능한 미세 조정 데이터의 품질에 따라 달라집니다.
프랑스 선거 데이터 세트에 대한 주석 작업은 다른 그룹에서 수행했으며, 그 결과는 우리에게 제공된 실측 데이터에 의존했습니다.
또한, 정치 영역의 감정과 분석을 더욱 향상시킬 수 있는 다중 도메인 감정 모델로 주석을 단 공개적으로 사용 가능한 데이터 세트를 공개하기 위해 전문가들의 사내 주석을 수행하는 것을 목표로 하고 있습니다.
Appendix
표 3과 4에 제시된 SemEval 및 프랑스 대선 데이터 세트에 대한 계층적 라벨 매핑에서 각 대상 감정에 대한 선형 조합의 각 용어에 대한 가중치는 기본적으로 1로 설정되어 있습니다. 대상 도메인에 대한 미세 조정 데이터 없이 각 감정 하위 카테고리가 대상 감정의 값을 결정할 때 동일한 가중치를 갖도록 했습니다. 또한 평가에서 각 감정의 분류 임계값을 모두 0.3으로 설정했습니다. 그러나 소규모 도메인 내 유효성 검사 데이터 세트를 사용할 수 있으므로 분류 임계값과 매핑 가중치를 개선할 수 있습니다. 각 대상 클래스에 대한 임계값을 선택하여 유효성 검사 데이터 세트에서 해당 클래스의 F1 점수를 최대화함으로써 분류 임계값을 미세 조정합니다. 미세 조정 모드의 경우, SemEval 검증 데이터 세트가 주어지면 표 9에서 라벨별 분류 임계값을 얻습니다.
표 5에서 볼 수 있듯이 SemEval의 성능이 향상되어, 양성 분류를 위해 신호가 얼마나 강해야 하는지에 대한 검증 데이터와 테스트 데이터 간에 일관성이 있음을 알 수 있습니다. 각 개별 대상 라벨 매핑에 차등 진화를 연속적으로 적용하여 매핑 가중치를 미세 조정하여 검증 데이터 세트에 대해 해당 라벨의 F1 점수를 최대화합니다(Storn and Price, 1997). 매핑 가중치를 미세 조정하기 위한 차등 진화 알고리즘의 구현은 Scipy에서 제공합니다. 각 대상 라벨 매핑에 대해 최적화 프로세스에서 각 가중치를 [0, 2]로 제한하고 라벨별 F1 점수의 개선이 충분히 작아질 때까지 반복적으로 계속합니다. 예를 들어, 이 프로세스를 통해 얻은 SemEval에서 사랑이라는 감정에 대한 매핑 가중치는 다음과 같습니다. 사랑 = EK[기쁨] * (1.174 * J[사랑] + 1.465 * J[욕망] + 0.751 * J[배려]))) * Sent[positive]. 하위 카테고리 욕망의 기여도가 가장 크고, 그 다음이 사랑, 그 다음이 배려임을 알 수 있습니다. 표 5에서 볼 수 있듯이, 이 최적화를 통해 SemEval에 대한 시스템의 점수가 향상되었습니다. 먼저 가중치를 최적화한 다음 임계값을 선택함으로써 매핑 가중치와 분류 임계값을 모두 미세 조정합니다.
댓글
댓글 쓰기