NL-133, DialogLM: Pre-Trained Model for Long Dialogue Understanding and Summarization, AAAI 2022
◼ Comment
- DialoGPT와 이름이 비슷하다.
- 이름에서 부터 알 수 있듯이, 대화데이터에 맞는 LM 모델을 만든다는 것이다.
- 보통 대화라고하면 생성일 거 같은데, 여기서는 생성뿐만 아니라, 대화들의
- 1) 요약
- 2) abstractive QA
- 3) 토픽 세분화
- 위 3개를 대화 세션에서 다룬다,
- 모델을 Transformer 인데, 대화 데이터는 일반적으로 길이가 길다.
- 따라서 긴 모델을 처리하기 위해, sparse Sinkhorn attention을 이용한 하이브리드 attention을 사용한다.
- 즉 4,8,12 layer에서는 sparse Sinkhorn attention을, 나머지 layer에선 full attention을 사용한다고 한다.
- 학습 방식은 denoising autoencoder식인데 5가지 노이즈를 제시한다.
- 그림을 보면 직관적이니 그림 참고
- ablation study을 통한 결과는 turn과 관련되 것이 효과가 좋다고 한다.
- 백본 모델은 UniLMv2을 사용한다고 한다.
- UniLM은 보면, 하나의 모델에 attention을 다르게 함으로써 bidirectional / autoregressive / encoder-decoder 식의 모델을 구현하는 것이다.
- https://baekyeongmin.github.io/paper-review/unilm-review/
0. Abstract
- 대화는 인간의 의사 소통과 협력의 필수적인 부분입니다.
- 기존 연구는 주로 일대일 방식의 짧은 대화 시나리오에 중점을 둡니다.
- 그러나 회의나 인터뷰와 같은 현실 세계의 다자간 상호 작용은 종종 수천 단어가 넘는다.
- 그러한 긴 대화를 이해하고 처리하기 위한 해당 연구와 강력한 도구가 여전히 부족합니다.
- 따라서 이 작업에서는 긴 대화 이해 및 요약을 위한 사전 교육 프레임워크를 제시합니다.
- 긴 대화의 특성을 고려하여 생성적 사전 훈련을 위한 window-based 잡음 제거 접근 방식을 제안합니다.
- 대화의 경우 dialogue-inspired noise로 window of text을 손상시키고 나머지 대화의 내용을 기반으로 이 window 을 재구성하도록 모델을 가이드합니다.
- 또한 더 긴 입력을 처리하기 위해 하이브리드 방식으로 기존 attention과 sparse attention으로 모델을 보강합니다.
- 우리는 대화 요약, 추상적 질문 답변 및 주제 세분화 작업을 포함하는 5개의 긴 대화 데이터 세트에 대해 광범위한 실험을 수행합니다.
- 실험적으로 우리는 사전 훈련된 모델 DIALOGLM이 데이터 세트와 작업 전반에 걸쳐 최첨단 모델을 훨씬 능가함을 보여줍니다.
1. Introduction
- 대화는 일상 생활, 직장 또는 온라인 포럼에서 대인 상호 작용에 중요한 역할을 하며 학계와 산업계의 광범위한 관심을 불러일으켰습니다(Zhang et al. 2020b).
- 음성 인식 시스템의 발전과 원격 근무의 필요성이 증가함에 따라 회의록, 인터뷰 및 토론과 같은 긴 대화가 점점 더 많이 녹음되고 전사됩니다.
- 이러한 긴 대화는 정보의 밀도가 높은 매체이므로 사용자가 요점을 빠르게 이해하고 관련 정보를 추출하는 데 어려움을 겪습니다.
- 이러한 문제를 해결하기 위해 대화 요약, 대화 기반 질문 답변 및 대화 분할을 포함한 많은 NLP 작업이 제안됩니다.
- 그러나 긴 대화는 뉴스와 같은 독백(monologic) 텍스트와 달리 대화 구조와 긴 입력을 가지고 있어 현재 NLP 시스템에서 처리하기 어렵습니다.
- 따라서 긴 대화 전체를 더 잘 이해하고 요약할 수 있는 모델을 탐색하는 것이 실질적으로 필요합니다.
- 최근에 사전 훈련된 신경 언어 모델은 다양한 자연어 작업에서 놀라운 성공을 거두었습니다(Devlin et al. 2018; Liu et al. 2019).
- 그러나 이러한 범용 모델은 보편적인 목적을 가진 자유 형식 텍스트 데이터에 대해 사전 학습됩니다.
- 이에 동기를 부여하여 conversational response generation, dialogue response ranking, multi-party conversation understanding와 같은 다양한 작업을 처리하기 위해 여러 대화 관련 사전 훈련된 모델이 제안되었습니다.
- 그럼에도 불구하고 이러한 모델은 짧은 대화(예: 일반적으로 200단어 미만)로 제한되므로 더 많은 화자와 발화가 포함된 긴 대화(보통 5,000단어 이상)를 처리할 수 없습니다.
- 반면, 긴 시퀀스의 경우 후속 연구는 self-attention 방법을 개선하고 local and global 정보의 상호 작용을 촉진하는 데 중점을 둡니다.
- 그러나 이러한 시스템은 대화를 위해 설계되지 않았으므로 대화 구조에 대한 제한된 지식을 배웁니다.
- 일반적으로 기존 모델은 모두 긴 대화를 다룰 때 나름의 딜레마가 있습니다.
- 이 논문에서는 긴 대화 이해와 요약을 위해 사전 훈련된 신경 인코더-디코더 모델인 DIALOGLM을 제시합니다. DIALOGLM은 sequence-to-sequence 모델 아키텍처를 기반으로 하며 광범위한 자연어 처리 작업에 적용할 수 있습니다.
- 그림 1에서 볼 수 있듯이 우리는 큰 대화 말뭉치에 대한 창 기반 잡음 제거 사전 훈련 작업을 제안합니다.
- (1) 대화에서 여러 연속 회전을 포함하는 창을 선택합니다.
- (2) 임의의 대화 관련 노이즈를 창에 주입하고
- (3) 나머지 대화를 기반으로 이 창을 복원하도록 모델을 훈련합니다.
- 직관적으로 사전 훈련된 모델은 대화 상대의 말하기 스타일과 주제 내용이 긴 대화에 흩어져 있기 때문에 시끄러운 창을 재구성할 수 있어야 합니다.
- PEGASUS(Zhang et al. 2020a)와 같은 문장 수준의 마스킹과 비교할 때 여러 차례의 창으로 구성된 창은 대화 형식을 인식하는 데 중요한 보다 일관성 있고 유익한 텍스트를 포함합니다.
- BART(Lewis et al. 2020)와 같은 전체 텍스트 노이즈 제거와 비교하여 창 기반 방법은 계산 리소스가 덜 필요하므로 긴 시퀀스를 처리할 때 상당한 이점이 있을 뿐만 아니라 대화 요약과 같은 다운스트림 작업에 더 적합합니다.
- 또한 대화의 특성을 기반으로 노이즈 창을 생성하기 위해 5가지 유형의 사전 훈련 노이즈를 설계합니다.
- Speaker Mask
- Turn Splitting
- Turn Merging
- Text Infilling
- Turn Permutation
- 이러한 도전적인 변환은 화자와 발화의 내용과 순서를 모두 방해합니다.
- 따라서 창을 재구성하려면 DIALOGLM이 화자-발화 쌍의 특수 형식과 텍스트 스타일을 완전히 이해하고 전체 대화의 일반적인 내용을 파악해야 합니다.
- 또한 더 긴 시퀀스를 처리하고 훈련 시간을 줄이기 위해 모델에 하이브리드 주의 접근 방식을 도입했습니다.
- 대부분의 신경층에서 local information를 캡처하기 위해 sparse attention 방법을 사용합니다.
- 다른 계층의 경우 전체 대화 의미를 인식하기 위해 global self-attention가 사용됩니다.
- 이 하이브리드 주의 접근 방식을 통해 DIALOGLM은 8,000개 이상의 입력 단어를 수용하면서 우수한 모델 성능을 달성할 수 있습니다.
- 실험적으로 DIALOGLM은 긴 대화 이해 및 요약 작업에서 이전 모델을 크게 능가합니다.
- 특히, 대화 요약 및 추상적인 질문 답변을 위해 우리 모델은 회의 및 시나리오 영역을 포함한 5개 데이터 세트에서 사전 훈련된 모델 BART 및 Longformer를 능가하여 여러 데이터 세트에서 새로운 최첨단 결과를 달성합니다.
- DIALOGLM은 또한 대화 분할 작업에 대한 강력한 기본 모델보다 우수함을 보여줍니다.
- 절제 연구는 사전 훈련 프레임워크에서 각 구성 요소의 효율성을 확인했습니다.
- 결과는 각각의 대화에서 영감을 받은 소음과 제안된 하이브리드 주의 방법이 모델을 더욱 개선할 수 있음을 보여줍니다.
- automatic evaluation 외에도 생성 작업에 대해 유창성, 정보성 및 원본 대화에 대한 충실도의 3차원에서 생성된 시퀀스에 대한 인간 평가도 수행합니다. 이전의 강력한 모델과 비교하여 DialogLM은 다양한 관점에서 상당한 이점을 제공합니다.
2. Related Work
- Pre-trained Neural Models for Dialogues
- 대부분의 대화 관련 사전 훈련된 모델은 대화 응답 생성(Zhang et al. 2020b; Bao et al. 2020b; Cao et al. 2020), 대화 응답 선택(Wu et al. 2020, Gao et al.)과 같은 특정 작업에 중점을 둡니다. al. 2020) 및 다자간 대화 이해(Gu et al. 2021).
- 일반적으로 말해서 대화 응답 생성 및 선택을 위해 Reddit과 같은 개방형 도메인 대화 데이터에 대한 범용 사전 훈련 모델을 추가로 사전 훈련시키거나(Henderson et al. 2020; Zhang et al. 2020b; Bao et al. 2020b) 다운스트림 애플리케이션을 위한 작업별 교육(Li et al. 2020; Wu et al. 2020; Gu et al. 2021).
- 이러한 이전 연구와 달리 우리의 사전 훈련 작업은 구체적인 작업에 국한되지 않습니다.
- 창 기반 잡음 제거를 통해 모델이 일반적인 방식으로 대화 형식과 특성을 학습하여 다양한 대화 중심 작업에서 더 나은 성능을 발휘할 수 있기를 바랍니다.
- 반면에 이러한 작업은 짧은 대화 장면에만 초점을 맞추고 일반적으로 입력 대화의 길이를 제한합니다.
- 결과적으로 우리는 더 많은 화자와 더 많은 발화와 긴 대화를 위한 강력한 NLP 도구가 여전히 부족합니다.
- Pre-trained Neural Models for Long Sequences
- 긴 시퀀스를 처리하는 것은 많은 NLP 작업에서 자연스러운 필요입니다.
- Transformer(Vaswani et al. 2017) 아키텍처의 경우 핵심적인 어려움은 시퀀스 길이에 따라 2차적으로 증가하는 self-attention 모듈의 계산 복잡성에 있습니다.
- 최근에는 self-attention 메커니즘을 개선하여 long sequence 문제를 해결하기 위한 많은 방법들이 제안되고 있다.
- 특히, Linformer(Wang et al. 2020)는 주의 메커니즘 행렬이 낮은 순위라는 가정 하에 선형 매핑을 사용하여 입력 시퀀스를 압축합니다.
- 블록/버킷 기반 로컬 어텐션(Kitaev, Kaiser, Levskaya 2020; Wang et al. 2021; Roy et al. 2021)은 무작위 투영 해싱 기능 또는 클러스터링 접근 방식을 활용하여 매우 유사한 토큰을 동일한 버킷에 할당합니다.
- 슬라이딩 윈도우 기반 어텐션(Beltagy, Peters, and Cohan 2020; Zaheer et al. 2020; Zhang et al. 2021a)은 슬라이딩 윈도우 어텐션을 도입하여 로컬 정보를 캡처하고 전역 정보에 대한 전체 관심의 일부를 유지합니다.
3. Method
- 이 섹션에서는 먼저 DIALOGLM에 대한 사전 훈련 작업인 창 기반 잡음 제거 및 대화에서 영감을 받은 5가지 유형의 잡음을 소개합니다.
- 그런 다음 사전 훈련된 모델의 전체 아키텍처를 설명합니다.
- Window-based Denoising
- 긴 대화에는 일반적으로 핵심 주제와 여러 명의 주요 연사가 포함됩니다.
- 예를 들어, AMI 코퍼스 회의(Carletta et al. 2005)는 제품 관리자, 산업 디자이너, 마케팅 전문가 및 사용자 인터페이스 디자이너 간의 토론을 포함하여 산업 환경의 제품 디자인에 관한 것입니다.
- 수천 개의 단어로 된 긴 대화는 다양한 사람들의 말하기 스타일을 묘사할 수 있습니다.
- 예를 들어 제품 관리자는 적극적으로 말하고 청중에게 에너지를 주어 브레인스토밍을 돕지만 마케팅 전문가는 일반적으로 통계를 사용하여 의견을 제시합니다.
- 또한 대화는 일관성이 있으며 다른 부분의 내용은 밀접하게 관련되어 있습니다.
- 따라서 나머지 문맥을 바탕으로 대화 일부의 화자 및 일반적인 내용을 유추할 수 있습니다.
- 이에 영감을 받아 DIALOGLM에 대한 새로운 사전 훈련 작업인 창 기반 잡음 제거를 제안합니다.
- 공식적으로, 긴 대화 D = (x1, x2, · · · , xn)이 n 회전으로 구성되어 있다고 가정하고 각 회전 xi는 화자-발화 쌍 xi = (si, ui)를 나타냅니다.
- 먼저 여러 항목을 포함하는 임의의 창을 선택합니다. 연속 회전 W = (xj , xj+1, · · · , xj+m).
- 다음으로, 우리는 노이즈 창 W' = (x'j , x'j+1, · · · , x'j+m' )를 생성하기 위해 몇 가지 대화 관련 노이즈를 여기에 주입합니다.
- 사전 훈련 단계에서 우리는 모든 회전을 긴 시퀀스로 연결하고 창을 모델에 대한 입력으로 잡음이 있는 버전으로 바꿉니다.
- 즉, X = (x1, · · · , x'j , · · · , x'j +m', · · · , xn)이 입력이되고 목적은 조건부 분포 p(xj , xj+1, · · · , xj+m|X)를 모델링하여 이 선택된 창 W를 복원하는 것입니다.
- 그림 1과 같이 여러 턴을 창으로 선택하고 순서를 방해하고 콘텐츠 및 화자 정보의 일부를 마스킹하여 잡음이 있는 창을 생성합니다.
- 디코더는 잡음이 있는 창과 나머지 대화를 기반으로 원래 창을 재구성하도록 훈련되었습니다.
- 우리가 제안한 사전 훈련 작업과 가장 관련 있는 작업은 BART(Lewis et al. 2020)에 의한 전체 텍스트 노이즈 제거와 PEGASUS(Zhang et al. 2020a)에 의한 문장 수준 마스킹입니다.
- 그러나 5,000단어가 넘는 시퀀스의 경우 전체 텍스트 노이즈 제거에는 감당할 수 없는 계산 리소스가 필요합니다.
- 이에 따라 창 기반 접근 방식은 유연한 대안이며 모델이 복구할 수 없다는 걱정 없이 완전히 변환된 노이즈를 추가할 수 있습니다.
- 반면에 문서와 달리 대화의 많은 개별 회전은 주제와 관련 없는 단순히 다른 사람에게 인사하거나 일상에 대해 수다를 떨게 하는 등 유익한 정보가 아닙니다.
- 따라서 문장/순서 수준 마스킹은 모델이 전체 대화의 핵심 내용을 이해할 수 있도록 하는 것은 아니지만 여러 차례 연속 회전이 있는 창은 의미 있고 일관된 정보를 포함할 가능성이 더 높습니다.
- 그래서 우리는 이전 프레임워크와 비교하여 창 기반 잡음 제거가 긴 대화를 처리하기 위한 모델을 사전 학습하는 데 더 적합할 수 있다고 주장합니다.
- Dialogue-Inspired Noise
- 1) Speaker Mask
- 창의 각 턴의 스피커 이름에 대해 50%가 무작위로 샘플링되어 특수 [MASK SPEAKER] 토큰으로 대체됩니다.
- 2) Turn Splitting
- 대화의 한 차례는 여러 문장으로 구성될 수 있습니다.
- window에서 문장 수가 가장 많은 차례를 선택하고 여러 차례에 나눕니다.
- 첫 번째 분할 턴의 스피커를 변경하지 않고 [MASK SPEAKER]를 이후의 모든 새로 분할 턴의 스피커로 사용합니다.
- 3) Turn Merging
- 무작위로 여러 개의 연속 턴을 샘플링하여 하나의 턴으로 병합합니다.
- 첫 번째 턴의 화자를 변경하지 않고 유지하고 다음 턴의 모든 화자를 삭제합니다.
- 병합된 회전 수는 푸아송 분포(λ = 3)에서 도출되며 최소 2로 설정됩니다.
- 4) Text Infilling
- 창에서 무작위로 여러 텍스트 범위를 샘플링하고 각 범위를 [MASK] 토큰으로 바꿉니다.
- 텍스트 범위의 길이도 푸아송 분포(λ = 3)에서 가져옵니다.
- 길이가 0인 범위는 Lewis et al.에서와 같이 [MASK] 토큰의 삽입에 해당합니다. (2020).
- 5) Turn Permutation
- 모든 turn을 무작위 순서로 섞습니다.
- 이 노이즈는 턴 병합 및 턴 분할 후에 추가됩니다.
- 이는 화자를 방해하고 정보를 전환하여 모델이 컨텍스트를 완전히 이해할 때만 창을 복원할 수 있도록 합니다.
4. Model Architecture
- 다양한 NLP 작업에서 유망한 성능과 유연성을 보여주기 때문에 Transformer를 백본 신경 아키텍처로 선택합니다.
- 긴 대화 처리의 경우 BART 및 UNILM과 같은 Transformer를 기반으로 하는 사전 훈련된 모델에는 두 가지 제한이 있습니다.
- 1) 대화 형식의 사전 훈련 데이터가 없고 대화 모델링을 위해 설계된 사전 훈련 작업이 없습니다.
- 2) 사전 훈련 중에 사용되는 텍스트 길이가 짧습니다(BART의 경우 1,024, UNILM의 경우 512).
- 첫 번째 문제와 관련하여 더 많은 대화 관련 지식을 소개하기 위해 모델 DIALOGLM을 사전 훈련하기 위해 window-based denoising 접근 방식을 사용합니다.
- 두 번째 문제에서는 Transformer 아키텍처에서 하이브리드 주의 방법을 활용합니다.
- 그림 2는 우리 모델에 대한 하이브리드 주의 접근 방식을 보여줍니다.
- 긴 시퀀스를 다룰 때 인코더 셀프 어텐션이 가장 큰 계산 오버헤드를 차지하므로 최근 제안된 sparse Sinkhorn attention으로 이를 개선합니다.
- 이거를 알아야 할 듯?
- 블록 기반 어텐션과 같은 로컬 어텐션 방식은 입력을 여러 블록으로 나누고 단어가 자신의 블록에 있는 단어에만 주목하도록 제한합니다.
- 이렇게 하면 계산 부담이 크게 줄어들지만 글로벌 정보도 손실됩니다.
- Sinkhorn 주의는 미분 가능한 분류 네트워크를 추가로 도입하여 이를 확장합니다.
- 원래 블록을 새 순서로 정렬하고 각 블록이 자체적으로 처리할 뿐만 아니라 새 순서의 해당 블록에도 처리할 수 있도록 합니다.
- 그림 2와 같이 노란색 블록은 순열 후 녹색 블록과 같은 위치에 있기 때문에 녹색 블록은 노란색 블록에 주의할 수 있습니다.
- Sinkhorn 주의로 다른 레이어는 다른 순열을 학습하므로 각 블록은 다른 레이어의 여러 위치에 있는 정보에 액세스할 수 있습니다.
- 그러나 전체 대화 의미 체계는 텍스트 요약과 같은 많은 응용 프로그램에서 여전히 필수 불가결합니다.
- 따라서 우리는 여러 인코더 계층의 self-attention을 변경하지 않고 유지합니다.
- 다시 말해서, 우리는 여전히 이 계층에서 완전한 자기 주의를 사용합니다.
- 이 하이브리드 방식은 지역 정보와 글로벌 정보의 상호 작용을 가능하게 합니다.
- Sparse Attention을 도입하지 않는 모델과 비교하여 더 긴 시퀀스를 입력하고 학습 시간을 단축한다는 전제 하에 유사하거나 더 나은 성능을 달성할 수 있습니다.
- 우리가 제안한 사전 훈련 작업과 모델 수정은 모든 Transformer 기반 사전 훈련된 모델에 직교한다는 점은 주목할 가치가 있습니다.
- 이 논문에서는 UNILMV2의 기본 버전으로 모델을 초기화합니다.
- 그리고 UNILMV2의 4번째, 8번째, 12번째 인코더 레이어는 완전한 self-attention으로 유지됩니다.
5. Experiments
5.1 Implementation Details
- DIALOGLM을 사전 훈련하기 위해 대화 데이터에 대한 총 200,000단계에 대한 창 기반 잡음 제거 프레임워크로 UNILM을 추가로 훈련하며 그 중 20,000개는 준비 단계입니다.
- 배치 크기를 64로 설정하고 최대 학습률을 2e-5로 설정했습니다.
- 사전 훈련 데이터는 MediaSum 데이터 세트와 OpenSubtitles Corpus의 조합입니다(표 2 참조).
- MediaSum은 463.6K 대본으로 구성된 미디어 인터뷰 데이터 세트입니다.
- OpenSubtitles은 60개 언어로 된 영화 및 TV 자막의 대규모 데이터베이스에서 컴파일됩니다.
- 우리는 영어 부분을 사전 훈련 코퍼스로 사용합니다.
- 이 두 개의 대규모 사전 교육 데이터 세트에는 여러 참가자와 긴 대화가 풍부하고 명확한 대화 텍스트 구조가 있습니다.
- 사전 훈련 동안 창 크기는 입력 길이의 10%로 설정되며 최대 창 크기는 512개의 토큰으로 제한됩니다.
- 시끄러운 창을 생성할 때 먼저 화자의 50%를 마스킹한 다음 Turn Splitting 또는 Turn Merging을 무작위로 주입하고 Text Infilling을 사용하여 발언에서 15% 토큰을 마스킹합니다.
- 마지막으로 Turn Permutation이 수행됩니다.
- 40GB 메모리가 있는 8개의 A100 GPU가 이 백서의 실험을 완료하는 데 사용됩니다.
- 이 문서에 나열된 모든 결과는 3회 실행의 평균입니다. DIALOGLM의 두 가지 버전을 사전 학습합니다.
- DIALOGLM은 창 기반 잡음 제거 방법으로 UNILM-base를 추가로 사전 훈련하여 얻습니다.
- 최대 입력 길이는 5,120이며 이 길이를 초과하는 토큰은 실험에서 잘립니다.
- DIALOGLM-sparse는 DIALOGLM의 사전 훈련 과정에서 하이브리드 주의 접근 방식을 추가로 도입하여 최대 길이가 8,192 토큰으로 증가합니다.
5.2 Downstream Tasks and Datasets
- 사전 훈련 후 우리는 총 5개의 데이터 세트를 포함하는 회의 및 시나리오 영역에서 3개의 서로 다른 긴 대화 작업에 DIALOGLM을 적용합니다.
- Tasks
- Long Dialogue Summarization: 긴 대화(> 5,000단어)가 주어지면 핵심 내용이 포함된 간결한 요약(< 512단어)을 출력합니다.
- Abstractive Question Answering: 긴 대화와 특정 질문이 주어지면 대화의 관련 내용을 기반으로 몇 개의 문장을 답으로 생성합니다.
- Topic Segmentation: 긴 대화가 주어지면 주요 주제에 따라 여러 부분으로 나눕니다. 각 세그먼트는 여러 개의 연속적인 발화로 구성됩니다.
- Datasets
- 위의 작업에 대해 AMI(Carletta et al. 2005), ICSI(Janin et al. 2003), QMSum(Zhong et al. 2021), ForeverDreaming 및 TVMegaSite(Chen et al. 2021a)의 5가지 인기 있는 벤치마크를 사용합니다.
- 자세한 통계는 표 2에 나와 있습니다.
- 표시된 대로 이러한 데이터 세트는 회의와 시나리오의 두 가지 도메인으로 나눌 수 있습니다. (요약으로 쓰이거나, QA 테스크인듯)
- Meeting Domain:
- AMI와 ICSI는 각각 회사의 제품 디자인 회의와 학교의 학계 회의에서 수집한 회의 성적표입니다.
- 각 회의에 대해 회의 요약 및 사람이 주석을 추가한 주제 경계가 포함되어 있습니다.
- QMSum은 쿼리 기반 다중 도메인 회의 요약 작업에 대한 벤치마크입니다.
- 이 데이터셋의 쿼리 유형은 일반 쿼리와 특정 쿼리로 나눌 수 있습니다.
- 전자는 요약 작업으로 사용할 수 있고 후자는 추상적인 QA 작업으로 간주할 수 있습니다.
- 여기에는 사람이 주석을 추가한 주제 경계도 포함됩니다.
- Screenplay Domain:
- ForeverDreaming과 TVMegaSite는 한 쌍의 TV 시리즈 대본과 사람이 쓴 요약으로 구성됩니다.
- 그들은 서로 다른 출처의 서로 다른 대화 스타일을 가지고 있으므로 추상적 대화 요약을 위한 도전적인 테스트베드 역할을 할 수 있습니다.
5.3 Baselines
5.4 Experimental Results
- 사전 훈련된 모델에서 각 구성 요소의 기여도를 더 잘 이해하기 위해 QMSum 및 TVMegaSite에 대한 포괄적인 제거 연구를 수행합니다.
- 이는 각각 회의 및 시나리오 영역의 대표자로 볼 수 있습니다.
- 전반적으로, 우리가 제안한 사전 훈련 프레임워크, 즉 창 기반 잡음 제거는 긴 대화를 처리하는 범용 사전 훈련된 모델의 능력을 크게 강화합니다.
- 표 6에 반영되어 있습니다.
- "사전 훈련"을 제거하면 두 데이터 세트 모두에서 상당한 성능 저하가 발생합니다.
- 또한 대화에서 영감을 받은 5가지 소음은 모두 사전 훈련 과정에 기여합니다.
- 이들 중 가장 중요한 것은 Turn Split and Turn Merging입니다.
- 우리는 모델이 대화 구조와 주요 내용을 인식하지 않고는 잡음을 제거할 수 없기 때문이라고 생각합니다.
- 스피커 마스크는 다른 소음의 복원으로 인해 가장 적은 이점을 제공합니다.
- 또한 모델이 각 차례의 대담자가 누구인지 파악해야 하기 때문입니다.
- 또한 하이브리드 주의 메커니즘을 도입할지 여부는 우리 모델을 더 많은 시나리오에 유연하게 적용할 수 있도록 하므로 다양한 대화 기간의 상황을 수용하기 위해 두 가지 버전의 DIALOGLM을 출시합니다.
5.4.2 Human Evaluation
- 이 논문에서 우리는 긴 대화 이해와 요약을 위한 새로운 사전 훈련 프레임워크를 제안합니다.
- 특히, 긴 대화가 주어지면 그 일부를 대화에서 영감을 받은 5개의 노이즈로 구성된 노이즈 창으로 대체하고 모델이 원래 대화 창을 생성하도록 합니다.
- 결과적으로 사전 훈련된 모델은 대화 구조를 효율적으로 실현하고 필수 정보를 캡처하여 대화의 모든 섹션을 재구성할 수 있습니다.
- 또한 더 긴 대화 시나리오에 적응하기 위해 하이브리드 주의 접근 방식을 제시합니다.
- 실험에 따르면 사전 훈련된 모델 DIALOGLM은 3가지 긴 대화 이해 및 요약 작업으로 5가지 벤치마크에서 이전 최신 모델보다 성능이 뛰어납니다.
Reference
댓글
댓글 쓰기