NL-216, Large Language Models Offer an Alternative to the Traditional Approach of Topic Modelling, LREC-COLING 2024

◼ Comment

  • 논문의 사실 노벨티가 크게 있나? 싶긴함
  • 이 논문은 주어진 데이터세트가 어떤 토픽들로 이뤄졌는지 추출해보는 논문이다
  • 모델은 chatgpt랑 llama 2 7b을 썼다고 함
    • gpt4, llama 2 70b는 비싸서 못썻다고 함
  • 즉 LLM으로 데이터세트를 입력으로 주고 토픽 추출해! 이렇게 했다는 것이다
  • 데이터세트는 크기 때문에 한번에 모든걸 입력으로 넣지는 못하고, 배치로 처리했다고 함
  • basic prompt라해서 그냥 토픽 추출하라고하면 너무 general한걸 추출하는 경향이 있다고 함
  • 그래서 이것저것 실험한건데.. 이전에 뽑았던 토픽을 보여주고, 이를 고려해서 추출하라고하면 좀 더 좋아진다고함
  • 이렇게 많이 추출된 토픽의 top-k가 최종 토픽이 되는것이다
    • 세부적으로 manual하게 후처리하는 과정도 (같은 의미인걸 합치는 그런) 있다고 함
  • 단순히 빈도수로 하지 않고, LLM에게 한번더, 추출된 토픽들을 요약해줘 라는 식으로 해서 최종 토픽을 추출하는 방법도 보여줌
  • 평가라는게 딱히 애매해서, 평가지표를 제안하고 평가한거 같은데.. 뭔가 비교실험이 없는거 같다
    • 뭔가 성능도 딱 표로 정리안해주고 비교모델도 없고?
    • 그냥 사람 몇명의 평가 돌리는게 더 직관적이었을듯
  • 어쨌든, 이러한 방식으로 토픽을 추출하는 방법론이 있다고 함

Abstract

  • 이 섹션에서는 주제 모델링의 중요성과 기존 접근 방식의 한계점을 설명합니다. 
  • 주제 모델링은 문서 집합 내에서 중요한 주제를 자동으로 감지하는 데 사용되며, 다양한 학문, 비즈니스 및 연구 분야에서 중요한 역할을 합니다. 
  • 기존 접근 방식인 토픽 모델링(예: LDA)과 폐쇄형 주제 분류는 몇 가지 문제점을 가지고 있습니다. 
  • LDA는 의미적 이해 부족과 주제 중복 문제를 가지고 있으며, 폐쇄형 주제 분류는 사전 정의된 주제 집합에 의존하기 때문에 새로운 주제를 포착하지 못합니다. 
  • 이 논문은 이러한 문제를 해결하기 위해 LLM을 사용한 새로운 주제 추출 방법을 제안합니다.

Introduction

  • 문서 모음 내 주제를 이해하는 것은 다양한 학문, 비즈니스 및 연구 분야에서 매우 중요합니다 (Ramage et al., 2009; Vayansky and Kumar, 2020). 
  • 주요 주제에 대한 통찰을 얻는 것은 방대한 텍스트 데이터를 조직화하고 요약하며 의미 있는 결론을 도출하는 데 도움이 됩니다.
  • 고전적인 주제 분석 접근법에는 다음이 포함됩니다:
    • 1) 주제 모델링: 대규모 텍스트 코퍼스 내에서 단어 발생 패턴을 분석하여 테마나 주제를 식별하는 비지도 접근법 (Blei et al., 2003; Grootendorst, 2022).
    • 2) 닫힌 집합 주제 분류: 사전에 정의된 닫힌 집합 주제로 충분히 라벨링된 데이터를 사용하여 모델을 훈련시키는 방법 (Wang and Manning, 2012; Song et al., 2021; Antypas et al., 2022).
  • 그러나 이러한 접근법에는 몇 가지 한계와 도전 과제가 있습니다. 
  • 주제 분류는 사전에 정의된 닫힌 주제 집합이 필요하며, 보지 못한 주제를 포착할 수 없습니다. 
  • 반면, 주제 모델링은 매우 광범위한 주제를 생성할 수 있으며, 관심 있을 수 있는 더 구체적인 하위 주제를 놓칠 수 있습니다 (Abdelrazek et al., 2023). 
  • 또한 LDA와 BERTopic과 같은 모델이 생성한 주제는 단어 클러스터와 관련 확률로 구성되며, 이러한 클러스터가 직관적으로 이해되지 않을 수 있어 잠재적으로 오해를 초래할 수 있습니다 (Gillings and Hardie, 2023).
  • 추가로, 이러한 접근법은 새로운 문서를 처리하는 데 효율적이지 않으며, 모델을 완전히 다시 실행해야 하기 때문에 동적으로 자주 업데이트되는 데이터셋 (예: 동적 Twitter 코퍼스)에 대해 효율적이지 않습니다 (Blei and Lafferty, 2006; Wang et al., 2008).
  • 이러한 한계를 해결하기 위해 본 논문에서는 대체 주제 모델링 접근법인 **대규모 생성 언어 모델을 사용한 주제 추출**을 제안합니다. 
  • 생성 변환기 기반 대규모 언어 모델 (LLM), 예를 들어 GPT와 LLaMA는 인간과 유사한 언어 이해 및 생성 능력으로 큰 주목을 받았습니다. 
  • 프롬프트 기반 LLM은 기존의 자연어 처리 (NLP) 워크플로우를 변화시키고 있습니다 (Brown et al., 2020). 
  • 예를 들어, RLHF (Reinforcement Learning with Human Feedback)를 사용하여 훈련된 기존의 LLM (예: GPT-4)은 다양한 자연어 이해 작업에서 감독된 방법 (예: 완전히 미세 조정된 BERT에 필적하는 제로샷 분류 성능을 보여주었습니다 (Ziems et al., 2023; Mu et al., 2023c).
  • LLM의 플러그 앤 플레이 편의성 덕분에 주제 모델링에 변혁적인 잠재력을 가져옵니다. 
  • LLM은 인간 주석자와 동등한 제로샷 텍스트 요약 능력을 가지고 있기 때문에 (Zhang et al., 2024), LLM이 언어의 미묘한 차이를 이해하는 능력을 활용하여 주제를 추출 (또는 생성)할 수 있을 것이라고 주장합니다. 
  • 다양한 NLP 작업에서 맥락, 미묘함, 심지어 세부적인 주제적 톤을 이해하는 능력을 보여주었기 때문에, 더 풍부하고 세부적인 주제 분류가 가능합니다 (Wu et al., 2023; Tang et al., 2023).
  • 또한 프롬프트 기반 모델 추론 파이프라인은 사용자가 수동 지침을 추가하여 모델이 맞춤형 출력을 생성하도록 안내할 수 있게 합니다 (Ouyang et al., 2022). 
  • 게다가 LLM은 진화하는 언어 트렌드와 새로운 주제에 원활하게 적응할 수 있어, 주제 모델링이 항상 관련성을 유지하도록 합니다.
  • 이전 연구가 부족한 상황에서, 우리는 다음과 같은 연구 목표를 밝힙니다:
    • • (i) 복잡한 프롬프트 없이 LLM이 주제 추출을 위한 간단한 플러그 앤 플레이 도구로서 적합한지 조사합니다.
    • • (ii) LLM을 이용한 주제 추출의 한계와 도전 과제를 식별하고 해결합니다.
    • • (iii) LLM이 원하는 세부 수준으로 주제를 생성하는 데 있어 인간이 지정한 지침을 일관되게 따르는 능력을 평가합니다.
    • • (iv) LLM이 생성한 주제의 품질을 측정하기 위한 평가 프로토콜을 개발합니다.
  • 이를 위해, 우리는 다음과 같은 기여를 합니다:
    • • 다양한 프롬프트와 수동 규칙을 사용한 일련의 점진적인 실험을 통해 적절한 프롬프트와 함께 LLM이 전통적인 주제 모델링 접근법에 강력한 대안이 될 수 있음을 관찰했습니다.
    • • LLM이 주제를 생성할 뿐만 아니라 출력에서 포괄적인 주제를 요약할 수 있음을 실증적으로 보여줍니다. 결과 주제는 설명과 함께 제공되어 인간이 쉽게 이해할 수 있습니다.
    • • LLM이 유기적으로 생성한 주제의 품질을 평가하기 위한 평가 지표를 도입합니다. 이러한 지표는 라벨이 있는 데이터셋 또는 없는 데이터셋에 적합합니다.
    • • 마지막으로, LLM이 실제 시나리오에서의 응용 사례 (예: 시간에 따른 주제 트렌드 분석)를 보여주는 사례 연구를 제공합니다. 우리는 LLM이 독립적으로 주제를 추출하고 동적 Twitter 데이터셋에서 시간적 코퍼스를 분석하기 위한 설명을 생성할 수 있음을 보여줍니다 (그림 4 참조).

2. Related Work

2.1. Topic Modelling

  • 주제 모델링은 컴퓨터 과학에서 고전적인 비지도 학습 접근법으로, 사회 과학과 생물 정보학 등 다양한 분야에서 대규모 문서를 처리하는 데 널리 사용되어 왔습니다 (Blei et al., 2003; Song et al., 2021; Grootendorst, 2022). 
  • 주제 모델링 알고리즘의 표준 출력은 고정되거나 유동적인 수의 주제 집합으로, 각 주제는 일반적으로 주요 단어 목록으로 표현됩니다. 수동 또는 자동 방법을 사용하여 해당 주요 토큰으로 주제를 해석할 수 있습니다 (예: 각 주제에 의미 있는 이름 부여) (Lau et al., 2010; Allahyari and Kochut, 2015). 
  • 그러나 주제 해석은 항상 직관적이지 않습니다 (Aletras and Stevenson, 2014). 
  • 예를 들어, 단순히 눈으로 라벨을 지정하는 방식은 종종 불완전하거나 잘못된 주제 라벨을 초래합니다 (Gillings and Hardie, 2023). 
  • 또한 주제 라벨링과 해석은 주석자의 전문 지식에 크게 의존합니다 (Lee et al., 2017). 게다가 전처리 (예: 어간 추출 및 표제어 추출)는 주제 모델링 성능에 큰 영향을 미칠 수 있습니다 (Chuang et al., 2015; Schofield and Mimno, 2016). 따라서 주제 모델링을 사용할 때는 입력 문서에 대한 텍스트 전처리와 모델 출력에 대한 후처리 (예: 주제 라벨링)가 필요하여 결과를 인간이 해석할 수 있게 만듭니다 (Vayansky and Kumar, 2020).

2.2. Close-set Topic Classification

  • 반면, 닫힌 집합 주제 분류는 비지도 주제 모델링 접근법에 대한 대안으로, 일반적으로 사전 정의된 라벨이 있는 데이터셋을 사용하여 훈련된 모델에 의존합니다.
  • 주제 분류 접근법은 계산 사회 과학 (Wang and Manning, 2012; Iman et al., 2017)과 생의학 문헌 분류 (Lee et al., 2006; Stepanov et al., 2023) 등 다양한 분야에 널리 적용되어 왔습니다. 예를 들어, COVID-19 팬데믹 동안 주제 분류 접근법은 COVID 관련 허위 정보의 확산을 분석하고 (Song et al., 2021), 백신에 대한 공공 태도를 분석하는 데 사용되었습니다 (Poddar et al., 2022; Mu et al., 2023a). 그러나 감독 학습 과제의 특성상, 주제 분류는 데이터 주석에 많은 인적 비용이 소요됩니다 (Antypas et al., 2022). 또한, 소셜 미디어 게시물 라벨링의 맥락에서 사전 정의된 주제가 겹칠 수 있어 (예: '뉴스'와 '스포츠'), 주석자들 간의 의견 불일치를 초래할 수 있습니다 (Antypas et al., 2022).

2.3. LLMs-driven Topic Extraction

  • LLM은 뉴스, 생의학 및 과학 기사 등 다양한 분야에서 텍스트 요약 작업에서 그 능력을 입증했습니다 (Wu et al., 2023; Shen et al., 2023; Tang et al., 2023). 추출적 텍스트 요약 방법은 LLM 기반 주제 추출에 앞서 문서 복잡성을 단순화하고 가장 관련 있는 콘텐츠에 주제 추출을 집중시킬 수 있습니다 (Srivastava et al., 2022; Joshi et al., 2023). 
  • 한편, LLM은 주제 모델링 접근법을 보완하여 주제 해석 및 평가에서 인간의 개입을 줄입니다. 
  • Stammbach et al. (2023)은 LLM을 사용한 주제 평가를 탐구하면서, 기본 LLM (예: ChatGPT)이 주제 단어 집합의 일관성을 자동으로 평가하는 즉시 사용 가능한 접근법으로 사용될 수 있음을 발견했습니다.
  • 인간과 기계가 생성한 해석을 비교함으로써, Rijcken et al. (2023)은 LLM의 평가가 인간 주석과 높은 상관관계가 있음을 발견했습니다. 또한, LLM이 생성한 주제는 일반 사용자들에게 원래의 카테고리보다 더 선호됩니다 (Li et al., 2023).
  • Wang et al. (2023) 및 Xie et al. (2021)은 LLM이 묵시적인 주제 모델로, 시연에서 작업 관련 정보를 식별하는 데 사용할 수 있음을 지적합니다.

2.4. Our Work

  • 일반적으로, 이전 연구는 주로 LLM을 주제 모델링 접근법을 향상시키는 도우미로 사용하는 것에 중점을 두었습니다 (예: 자동 평가 및 주제 라벨링). 이러한 연구는 LDA 및 BERTopic과 같은 주제 모델링 접근법의 출력을 주로 활용하며, LLM이 직접 생성한 주제가 아니라 주제 모델링의 출력을 사용합니다. 본 연구에서는 LLM을 사용하여 주제를 추출하는 가능성에 대해 조명하고, LLM이 처음부터 생성한 주제를 평가하는데, 이는 주제 모델링 및 닫힌 집합 주제 분류와는 다른 작업입니다.

3. Models and Datasets

3.1. LLMs

  • 이 연구에서는 두 가지 널리 사용되는 LLM의 주제 추출 능력을 평가합니다.
  • - **GPT-3.5 (GPT)**: 
    • GPT-3 언어 모델의 고급 버전으로, 지침 미세 조정이 추가된 모델입니다. OpenAI API를 통해 GPT는 기계 번역, 상식 추론, 질문 및 응답 등 다양한 NLP 작업에 플러그 앤 플레이 기능을 제공합니다.
  • - **LLaMA-2-7B (LLAMA)**: 
    • LLaMA 1의 개선된 버전으로, 40% 더 큰 코퍼스와 두 배의 문맥 길이로 훈련된 모델입니다. 우리는 Hugging Face 플랫폼을 통해 LLaMA 모델을 사용합니다.
  • GPT와 LLaMA는 API 기반 상업 제품과 미세 조정 가능한 오픈 소스 모델이라는 두 가지 주요 LLM 모드를 대표하기 때문에 선택되었습니다. 
  • 두 LLM은 이전 LLM 평가 연구에서 자주 기본 모델로 선택되었습니다 (Ziems et al., 2023; Mu et al., 2023c). 
  • GPT-4 및 LLaMA-2-70B와 같은 더 강력한 대안이 있지만, 선택한 모델은 GPU 수와 API 가격 등 재정적 고려 사항과 계산 자원 측면에서 더 실용적인 의미를 제공합니다.
  • 비교를 위해, LDA (Blei et al., 2003) 및 BERTopic (Grootendorst, 2022)이라는 두 가지 널리 사용되는 기본 모델과도 비교합니다. 
  • LLM을 사용하여 각 주제에 대한 토큰 목록을 기반으로 최종 주제 이름을 생성합니다.

3.2. Datasets

  • LLM의 일반화 가능성을 평가하기 위해, 우리는 하나의 오픈 도메인 데이터셋과 하나의 도메인 특화 데이터셋을 조사합니다. 
  • 이 두 데이터셋은 문서 대 문장 수준의 다양한 길이와 다양한 어휘 밀도 (즉, 다양한 어휘 대 유사한 어휘)를 포함하고 있기 때문에 선택되었습니다. 
  • 주제 모델링 접근법은 충분한 문맥이 부족하여 의미 있는 주제를 도출하기 어려운 매우 짧은 텍스트 (예: 소셜 미디어의 사용자 생성 콘텐츠)를 다루는 데 어려움을 겪을 수 있습니다. 
  • 또한, Twitter 데이터셋은 시간 경과에 따른 주제 트렌드를 분석하는 데 사용할 수 있는 시간 정보를 제공합니다 (사례 연구는 § 5 참조).
  • 20 News Group (20NG): 
    • 고전적인 벤치마크로서, 텍스트 분류 및 클러스터링과 같은 다양한 NLP 하위 작업에 널리 사용되었습니다 (Lang, 1995).
  • CAVS (VAXX): 
    • COVID-19 백신 망설임의 이유를 분석하기 위해 설계된 세부적인 Twitter 데이터셋입니다. '부작용' 및 '백신 무효'와 같은 10개의 주요 백신 망설임 카테고리 중 하나로 라벨링된 트윗 모음을 포함하고 있습니다 (Poddar et al., 2022).
  • Pre-processing: 
    • Twitter 데이터셋의 경우, 모든 사용자 언급 (@USER) 및 하이퍼링크를 필터링하기 위해 표준 텍스트 정리 규칙을 수행합니다. 
    • 계층화된 데이터 분할 방법을 사용하여 각 데이터셋에서 문서의 20%를 테스트 세트로 샘플링하여 원본 데이터셋과 동일한 카테고리 비율을 유지합니다.

4. Experiments

  • 이 섹션에서는 실험 설정을 설명하며, 프롬프트 엔지니어링과 기대되는 주제 생성을 개선하기 위해 채택한 전략을 다룹니다.
  • 이 작업의 초기 단계성을 감안하여, 실험을 단순한 프롬프트 설정에서 복잡한 프롬프트 설정으로 순차적으로 구성합니다. 
  • 이러한 점진적인 실험 접근 방식은 발생하는 문제를 식별하고 적절한 해결책을 고안하는 데 도움이 됩니다.

4.1. Experiment 1: Out-of-box (Basic Prompt)

  • 우선, LLM을 기본 프롬프트로 주제 추출에 사용하는 방법을 탐구합니다. 
  • 트랜스포머 아키텍처의 주의 메커니즘이 입력 시퀀스 길이에 따라 이차 복잡성을 가지기 때문에 (Vaswani et al., 2017), LLM은 하나의 프롬프트로 큰 코퍼스에서 주제를 요약하는 데 어려움을 겪습니다. 
  • 예를 들어, 최신 GPT-4조차도 최대 입력 한도가 32,000 토큰(영어로 약 25,000 단어에 해당)으로 확장되었지만 대부분의 NLP 데이터셋을 한 번에 처리할 수 없습니다.

4.1.1. Prompting Strategies

  • 즉 데이터세트를 다 입력으로 받지는 않고
    • 배치로 받거나, 개별적으로 받으면서 데이터세트가 어떤 토픽들로 구성됐는지를 추출해보자?
  • 따라서, 우리는 두 가지 프롬프트 전략을 조사합니다: 
    • (i) 텍스트를 개별적으로 입력하기, 
    • (ii) 배치된 텍스트(예: 20개의 문서로 구성된 배치)를 입력하기. 
    • 전자는 각 반복마다 전체 프롬프트 메시지를 필요로 하므로 약간 더 높은 비용이 발생합니다.
  • 그림 1에서 보여지듯이, 우리의 프롬프트는 두 부분으로 구성됩니다: 
    • (i) 모델이 인간의 지시와 원하는 출력 형식을 이해하도록 돕는 시스템 프롬프트, 
    • (ii) 주제 추출을 위해 문서를 제공하는 사용자 프롬프트. 구조화된 출력 형식은 이후 주제 통계와 평가에 중요합니다.

4.1.2. Results and Discussion

  • 얻어진 많은 주제 중에서 각 주제의 발생 횟수를 세고 최종 목록에서 상위 K개 주제를 나열합니다. 
  • 주제 수는 주어진 데이터셋에서 각 주제의 비율을 나타냅니다. 
  • 초기 실험 세트에서, 두 프롬프트 전략 모두 유사한 결과를 낳는다는 것을 관찰했습니다. 
  • 평균 길이에 따라 LLM이 한 번에 최대 20개의 문서를 안정적으로 처리할 수 있음을 실험적으로 발견했습니다.
  • GPT와 LLaMA의 '기본 프롬프트' 실험 결과 (표 1 참조)에 따르면, 기본 지침만으로는 LLM이 고품질 주제를 생성하는 데 어려움을 겪는다는 것을 알 수 있습니다. 
  • VAXX 데이터셋(백신 망설임과 관련된 세부 이유) 예시를 통해 다음과 같은 문제를 확인했습니다:
  • 문제 (i):
    •  GPT는 '백신', '코로나 백신 접종', '백신 망설임'과 같은 매우 일반적인 주제를 생성하는 경향이 있습니다. 이는 GPT가 추가적인 지침 없이 기대되는 주제의 세부 수준을 이해하지 못할 수 있음을 시사합니다. 반면, LLaMA는 이 설정에서 그러한 일반 주제를 반환하지 않았습니다.
  • 문제 (ii):
    • 최종 주제 목록을 수동으로 검토한 결과, 생성된 많은 주제들이 본질적으로 동일한 의미를 전달한다는 것을 관찰했습니다. 
    • 예를 들어, LLM은 ‘side-effect’, ‘Side Effect’, ‘serious side effect’, ‘fear of side effects’ and ‘vaccine side effect’과 같이 다양한 경우와 형식으로 주제를 생성할 수 있습니다.
  • 문제 (iii):
    • 결과적으로, LLM은 약 2,500개의 추출된 주제를 반환하며, 이 중 60%는 고유합니다. 이 두 가지 문제를 감안할 때, '기본 프롬프트 실험'의 출력 목록에서 단순히 가장 빈번한 상위 K개 주제를 선택하는 것은 진정으로 대표적인 주제 집합을 산출하지 못할 수 있습니다.

4.1.3. Solutions

  • 초기 문제는 주제 선택에 중요한 고품질 주제를 얻는 것과 관련이 있습니다. 이를 해결하기 위해 다음과 같은 해결책을 제안합니다:
  • 프롬프트에 제약 추가: 
    • LLM이 지나치게 넓은 주제를 생성하는 것을 방지하기 위해 프롬프트에 추가 제약을 도입합니다. 
    • 예를 들어, 시스템 프롬프트에서 'COVID-19'와 'COVID-19 백신'과 같은 넓은 주제를 반환하지 않도록 모델을 유도합니다. 
    • 또한, COVID-19 백신 망설임 이유와 관련된 주제를 반환하도록 LLM을 유도하여 데이터셋의 세부 수준을 이해하도록 안내합니다.
  • 수작업 규칙: 
    • 각 반복 후 출력물을 정규화하기 위해 정규 표현식을 사용하여 모든 단어를 소문자로 변환하고 하이픈을 빈 공간으로 대체하는 등의 후처리 규칙을 추가합니다. 또한, 텍스트를 표제화하여 ‘vaccine effectiveness’ and ‘vaccine effective’와 같은 모든 원시 출력을 표준화합니다.
  • 상위 K개 주제: 
    • 주어진 데이터셋 내에서 대표적인 주제를 식별하기 위해 가장 높은 빈도를 보이는 주제에 집중하는 간단한 상위 K 방법을 사용합니다. 
    • 대표 주제 선택을 위한 추가 방법은 4.3절에서 논의합니다.
  • 프롬프트에 제안된 해결책을 통합함으로써, '기본 프롬프트' 실험 결과보다 개선된 주제 결과를 달성했습니다 (표 1 참조, 'GPT & LLaMA Expt. 1 + Manual Instructions').

4.2. Experiment 2: Topics Granularity (GPT & LLaMA Expt. 2 + Seeds Topic)

  • 주제 모델링 접근법은 특정 하이퍼파라미터를 설정하여 주제의 수를 고정함으로써 주제의 세부 수준을 제어할 수 있습니다 . 
  • 최소한의 도메인 지식을 바탕으로 앵커 단어 몇 개를 추가하여 주제 모델링을 수행할 수도 있습니다(Gallagher et al., 2017).
  • 표 1에서 보듯이, 실험 1에서 제안한 해결책은 무관한 주제를 효과적으로 필터링할 수 있습니다. 
  • 그러나 ‘vaccine side effect’, ‘fear side effect’ and ‘serious side effect’과 같은 유사한 주제에 대한 더 복잡한 시나리오를 해결하는 데에는 부족합니다. 
  • 자연어 이해에서의 고급 기능을 활용하여, 시드 토픽을 사용한 개선된 프롬프트 설정을 테스트합니다. 
  • 시드 토픽을 제공하는 목적은 모델이 예상되는 주제의 세부 수준을 이해하도록 유도하는 것입니다. 
  • 이는 인간이 몇 가지 예시를 검토하여 미리 지식을 얻고 보지 못한 문서 집합의 잠재적인 주제를 이해하는 방법과 유사합니다.

4.2.1. Prompting Strategies

  • 원래 라벨 목록에서 두 개의 범주를 선택하여 시드 토픽으로 사용합니다. 
  • 이들은 프롬프트에 주입되어 LLM이 예상되는 주제의 세부 수준을 이해하도록 안내합니다. 
  • 프롬프트 예시는 그림 1의 두 번째 행 "Basic Prompt + Seeds Topic"에 나와 있습니다.

4.2.2. Results and Discussion

  • 표 1에서, 시드 토픽을 포함시키는 것이 다양한 데이터셋과 LLM에서 주제 추출 성능을 일관되게 향상시킨다는 것을 확인할 수 있습니다. 
  • 이는 시드 토픽을 추가하는 것이 모델이 원하는 주제의 세부 수준을 이해하는 데 도움을 줄 수 있음을 나타냅니다.

4.3. Experiment 3 Generating Final List (GPT & LLaMA Expt. 3 + Summarisation)

  • 주어진 문서 세트를 가장 잘 대표할 수 있는 최종 주제 목록을 얻기 위해, 우리는 N개의 최종 주제로 주제를 병합하는 추가 전략을 고려합니다:
  • Topic Summarisation
    • 우리는 LLM이 추출한 주제 목록에서 가장 적합한 N개의 주제를 추출하도록 하는 추가 실험 라운드를 도입합니다. 
    • 추출된 목록은 방대하지만 GPT-3.5의 16k 컨텍스트 길이와 같은 대부분의 LLM 처리 용량 내에 있습니다. 
    • 이 실험에서는 모든 원시 주제(GPT & LLaMA Set 2 + Seed Topics의 결과)를 입력으로 사용합니다. 
    • 특정 프롬프트를 통해 LLM이 다양한 세부 수준의 쉽게 해석 가능한 최종 N개의 주제를 생성하도록 유도합니다. 
    • 이 과정의 최종 결과는 각 주제에 하위 주제가 포함된 LDA와 BERTopic의 출력 형식과 매우 유사합니다.
  • Prompting Strategy
    • LLM이 최종 주제 목록에서 요약하도록 유도하기 위해, 우리는 모델에게 주어진 주제 목록을 병합하고 요약하도록 직접 요청하는 프롬프트를 사용합니다. 
    • 또한 몇 가지 예시를 수동으로 추가하여 원하는 세부 수준의 주제를 생성하도록 유도하는 few-shot 프롬프트 전략을 사용합니다. 
    • 프롬프트 예시는 그림 1의 세 번째 행 "Prompt for Summarisation"에 나와 있습니다.
  • Results and Discussion
    • 표 1(GPT & LLaMA Expt. 3 + Summarisation)에 나타난 바와 같이, 최종 10개 주제 세트는 원본 데이터셋의 대부분의 범주를 포괄합니다. 
    • 근데 이거에 대한 평가는 안이뤄지는건가? -> 섹션 4.4
    • 이는 이전 텍스트 요약 작업에서 입증된 바와 같이, 방대한 말뭉치를 요약하는 데 있어 LLM의 강력한 능력을 강조합니다. 
    • 또한 LLM은 각 주제가 포함하는 내용을 자세히 설명하는, 사람이 쉽게 이해할 수 있는 설명을 제공합니다. 
    • 그림 2에는 LLM이 두 데이터셋에서 파생된 해석 가능한 최종 주제를 생성하는 예시가 나와 있습니다.

4.4. Topic Extraction Evaluation

  • 이전 연구에서는 perplexity와 coherence score와 같은 평가 지표를 사용했습니다(Aletras and Stevenson, 2013). 
  • 하지만 LLM이 생성한 새로운 형식의 주제는 기존 평가 파이프라인으로 완전히 처리할 수 없습니다. 
  • 표 1에서 볼 수 있듯이, LLM이 생성한 최종 Top N 목록은 기본 프롬프트를 사용하여 생성된 주제보다 더 나은 세부성과 해석 가능성을 제공합니다. 
  • 눈으로 보면, LLM이 생성한게 더 낫다. 그래서 그냥 기존 평가지표로는 성능측정이 애매하다는 것
  • 그럼에도 불구하고, 모델 성능의 실증적 비교를 위해 자동화된 평가 프로토콜이 중요합니다. 
  • 백신 데이터셋의 출력을 사용하여 제안된 평가 지표를 설명합니다:
  • (i) **Topic Distance over Top N Topics**: 
    • 우리는 먼저 Jaccard Distance를 사용하여 상위 N개의 일반 주제와 관련된 하위 주제를 평가합니다. 
    • 주어진 N개의 일반 주제 세트에서 각 주제는 10개의 하위 주제를 포함하며, 각 일반 주제 쌍 간의 Jaccard 거리를 계산합니다. 
    • Jaccard 거리는 두 집합 간의 유사성을 측정합니다. 두 하위 주제 목록 A와 B에 대해, Jaccard 거리는 다음과 같이 정의됩니다: 
    • \[\text{Jaccard\_distance}(A, B) = \frac{|A ∩ B|}{|A ∪ B|}\]
    • 여기서:
    • \(|A ∩ B|\)는 목록 A와 B 모두에 공통적인 요소의 수입니다.
    • \(|A ∪ B|\)는 목록 A와 B 전체에 걸쳐 고유한 요소의 총 수입니다.
    • \(\text{Jaccard\_distance}(A, B)\)는 0에서 1까지 범위로, 1은 목록이 동일함을 나타내고, 0은 목록이 공통 요소가 없음을 나타냅니다.
    • 그림 3에서는 최종 목록의 주제가 대부분 서로 구별됨을 보여줍니다(백신 데이터셋에 대한 LLaMA Expt. + Summarisation에서 얻은 주제).
  • (ii) Granularity of Top N Topics: 
    • 우리는 주제의 수가 증가할수록 세부성이 감소한다고 가정합니다(즉, 더 높은 의미 유사성).
    • 최종 상위 N개의 주제 쌍 간의 평균 의미 유사성을 BERT 임베딩의 코사인 유사성을 사용하여 계산합니다(Devlin et al., 2019).
    • \[\text{Ave.} = \frac{2}{N(N - 1)} \sum_{i=1}^{N-1} \sum_{j=i+1}^{N} \text{Similar}(T_i, T_j)\]
    • 이 방정식은 각 쌍이 한 번만 고려되도록 합니다. 
    • 우리의 작업에서는 상위 N개의 최종 주제에서 평균 의미 유사성을 계산합니다. 
    • N값은 10, 20, 30으로 설정합니다. 
    • 우리는 상위 N개의 최종 주제 수가 증가함에 따라 평균 의미 유사성이 증가하는 긍정적인 경향을 관찰합니다, 
    • 즉, 상위 10(0.155), 상위 20(0.197), 상위 30(0.203)입니다. 
    • 이는 LLM이 광범위한 주제 목록을 제공받았을 때 세밀한 상위 N개의 주제를 효과적으로 요약할 수 있음을 시사합니다.
  • (iii) Recall: 
    • 시드 주제(ST)를 기준으로 모델이 관련 주제를 생성하는 능력을 평가하기 위해 'Recall' 지표를 사용합니다. 
    • Recall 점수는 정확히 식별된 시드 주제의 비율을 총 시드 주제 샘플 수로 나누어 계산합니다.
    • \[\text{Recall} = \frac{\text{No. Correct Extracted ST Samples}}{\text{No. Seeds Topic Samples}}\]
  • (iv) Precision: 
    • 마찬가지로, 시드 주제로 식별된 정확히 식별된 시드 주제의 비율을 LLM이 시드 주제로 식별한 총 샘플 수로 나누어 precision을 계산합니다.
    • \[\text{Precision} = \frac{\text{No. Correct Extracted ST Samples}}{\text{No. Samples ST Extracted}}\]
  • 백신 데이터셋의 경우, 우리는 최종적으로 'Recall'(70.0)과 'Precision'(49.6) 점수를 LLaMA Expt. 2 + Seeds Topics의 결과를 기반으로 얻습니다.

5. Case Study: Temporal Analysis of COVID-19 Vaccine Hesitancy

  • COVID-19 백신에 대한 주저의 이유가 어떻게 변하는지 이해하는 것은 중요합니다. 
  • 이는 정책 결정자와 생물 의약품 회사가 대중의 반응을 평가하는 데 도움이 될 수 있습니다(Poddar et al., 2022; Mu et al., 2023b). 
  • 시간이 지남에 따라 새로운 이벤트가 발생하면서 백신 주저의 새로운 이유가 나타날 수 있습니다. 
  • 이는 이전 데이터셋에는 나타나지 않았던 주제일 수 있습니다. 
  • 따라서 기존의 LDA나 BERTopic 모델은 이러한 새로운 주제를 포함한 트윗을 처리하는 데 어려움을 겪을 수 있습니다.

5.1. Experimental Setup

  • 우리는 LLM이 시간 순서에 따라 새로운 주제를 처리하는 성능을 탐구합니다. 이를 위해 우리는 트위터 메타데이터에 타임스탬프 정보가 포함된 백신 데이터셋(Poddar et al., 2022)을 사용합니다.
  • COVID-19 백신 개발 타임라인을 따라 백신 데이터셋을 가장 오래된 것부터 최신 것까지 시간 순서대로 정렬합니다. 
  • 그런 다음 이를 세 개의 기간으로 나눕니다: 
    • (a) COVID-19 이전 기간 (2020년 1월 이전), 
    • (b) COVID-19 백신 개발 기간 (2020년 1월부터 2020년 12월까지), 그리고 
    • (c) COVID-19 백신의 첫 접종 이후 전 세계적으로 백신이 널리 사용되기 시작한 기간 (2020년 12월 이후).

5.2. Results and Discussions

  • 그림 4 (상단)에서는 세 기간 동안의 COVID-19 백신 주저와 관련된 주요 주제를 보여줍니다. 
  • 또한 최첨단 멀티모델인 GPT-4가 생성한 그림 설명을 함께 제공합니다(하단). 
  • 우리의 제안된 파이프라인은 LLM이 주제 추출, 시각화(LLM은 주어진 문서 집합의 통계를 시각화하기 위한 Python 및 R 코드를 생성할 수도 있음), 설명(데이터 시각화 그림을 기반으로 함)을 자동으로 실행할 수 있음을 보여줍니다. 
  • 이는 API 기반 및 오픈 소스 LLM 모두가 다양한 학문 분야의 연구자들에게 LDA와 BERTopic이 제공하는 기능을 대체할 수 있는 강력한 도구가 될 수 있음을 시사합니다.

6. Discussion

  • 실제 구현 관점에서, 우리는 제안된 연구 질문에 대한 주요 결론을 다음과 같이 요약합니다:
    • - 사전 학습 코퍼스와 RLHF(Rapid Learning and Heuristic Function) 전략의 차이로 인해, 다양한 LLM은 '제로샷' 주제 추출 시 기본 프롬프트만 사용할 경우 다양한 성능을 보일 수 있습니다.
    • - 주제 추출에 LLM을 사용하는 데는 ‘모든 상황에 맞는’ 방법이 없습니다. 우리는 소규모 테스트 세트에서 예비 실험을 수행할 것을 권장합니다. 이는 초기 단계에서 잠재적 문제를 식별하는 데 도움이 됩니다.
    • - 이러한 한계를 식별한 후에는 LLM의 주제 추출을 지원하기 위해 적절한 제약 조건과 수동 지침을 설정하는 것이 유연합니다. LLM이 텍스트 요약 및 주제 라벨링과 같은 관련 작업에서 그 강력함을 입증했기 때문에, 맞춤형 데이터셋을 사용한 추가 RLHF 미세 조정이 LLM의 주제 추출 효율성을 강화할 것이라 주장합니다.
    • - 시드 주제를 포함함으로써 LLM은 사용자가 지정한 대로 원하는 세분화된 주제를 생성할 수 있습니다.
    • - 우리는 다양한 관점에서 LLM이 생성한 주제의 품질을 평가하기 위한 몇 가지 메트릭을 제안합니다. 예를 들어, 주제의 세분성 등입니다.

7. Conclusion

  • 본 연구에서는 LLM을 이용한 주제 추출에 대한 탐색을 선도했습니다. 
  • 실증적 테스트를 통해, 우리는 LLM이 주제 추출 및 요약에 대해 실용적이고 적응 가능한 방법으로 활용될 수 있음을 입증했습니다. 
  • 이는 주제 모델링 방법과는 다른 새로운 관점을 제시합니다. 또한, LLM이 특정 도메인 및 오픈 도메인 데이터셋 모두에서 주제 추출에 직접 적용될 수 있음을 보여주었습니다. 
  • 이는 대규모 코퍼스에서 숨겨진 주제를 이해하는 LLM의 잠재력을 강조할 뿐만 아니라 주제 추출에서 다양한 혁신(예: 동적 데이터셋 분석)을 가능하게 합니다.
  • 앞으로 우리는 현재 LLM(예: LLaMA)의 최대 입력 길이를 초과하는 문서를 처리하는 것에 집중할 계획입니다. 
  • 예를 들어, LLM의 컨텍스트 윈도우를 확장하는 방식(Chen et al., 2023; Peng et al., 2023) 등을 연구할 것입니다. 
  • 추가로, 주제 모델링 접근 방식과 LLM 기반 주제 추출의 결과를 직접 비교할 수 있는 새로운 평가 프로토콜을 개발할 계획입니다. 
  • 이는 두 작업의 본질적인 차이를 고려한 것입니다.

Reference

댓글