LREC-COLING 2024

SciNews: From Scholarly Complexities to Public Narratives – A Dataset for Scientific News Report Generation

  • ### 전체 설명
    • 이 슬라이드는 **SciNews: From Scholarly Complexities to Public Narratives**라는 제목의 연구 발표 자료입니다. 이 연구는 학술 논문을 대중이 이해하기 쉬운 과학 뉴스 기사로 변환하는 새로운 데이터셋을 소개합니다. 주요 내용은 SciNews 데이터셋의 구축 과정, 데이터 분석, 그리고 이를 활용한 다양한 실험 결과를 포함하고 있습니다.
  • ### Introduction (소개)
    • 1. **왜 과학 뉴스 보고서 생성을 연구하는가?**
    •    - 학술 논문은 배경 지식이 필요하지만, 뉴스 기사는 더 많은 사람들이 접근할 수 있도록 단순화된 언어를 사용합니다.
    • 2. **요약/단순화와의 유사점 및 차이점**
    •    - 요약: 텍스트를 줄이면서 주요 내용을 유지.
    •    - 단순화: 가독성을 위해 더 간단한 단어/구문 사용.
    •    - SciNews의 작업은 두 가지 모두를 포함하여 텍스트를 추출하고 단순화합니다.
  • ### Contribution (기여)
    • 1. **SciNews 데이터셋**
    •    - **데이터 획득**: Science X에서 오픈 액세스 기사 수집.
    •    - **데이터 정제**: PySBD 및 spaCy를 사용하여 텍스트 정리.
    •    - **품질 관리**: 자동 및 수동 검사를 통해 데이터 품질을 보장.
    •    - **데이터 분할**: 80% 훈련, 10% 검증, 10% 테스트 데이터로 분할.
    • 2. **데이터셋 분석**
    •    - **데이터셋 비교**: SciNews는 다른 데이터셋과 비교하여 다양한 학문 분야를 다루며, 기사 길이가 더 길고 더 추상적임.
    •    - **논문과 뉴스 비교**: 뉴스 기사는 더 높은 어휘 다양성과 더 간단한 구문 구조를 가지고 있으며, 읽기 쉬운 프로필을 나타냄.
  • ### Conclusion (결론)
    • - SciNews 데이터셋은 연구 논문을 대중에게 쉽게 전달할 수 있는 뉴스 기사로 변환하는 데 중요한 리소스를 제공합니다.
    • - 다양한 실험을 통해 자동 요약 및 단순화 모델의 성능을 평가하고, 인간 작성 기사와 비교하여 모델의 강점과 약점을 분석했습니다.
    • - 앞으로의 연구를 위해 SciNews 데이터셋은 중요한 기준점으로 활용될 것입니다.
    • 이 연구는 과학 커뮤니케이션의 접근성을 높이고, 일반 대중이 최신 과학 연구를 더 잘 이해할 수 있도록 돕기 위한 중요한 기여를 합니다.
  • SciNews 데이터셋은 41,872개의 샘플로 구성되어 있으며, 각 샘플은 학술 논문과 해당 논문을 기반으로 한 과학적 뉴스 보고서로 이루어져 있다. 이 데이터셋은 다양한 학문 분야에 걸쳐 있으며, 자동화된 과학적 뉴스 생성의 과제를 지원한다. 예를 들어, 물리학 논문에서 다음과 같은 뉴스 보고서가 포함될 수 있다:
    • 논문 제목: "Quantum Entanglement in Photonic Systems"
    • 뉴스 보고서: "최근 연구에서 과학자들은 광자 시스템에서 양자 얽힘 현상을 성공적으로 관찰했다고 발표했습니다..."

LongDocFACTScore: Evaluating the Factuality of Long Document Abstractive Summarisation

  • ### LongDocFACTScore: 긴 문서 추상 요약의 사실성 평가
  • #### 동기
    • 추상 요약에서 사실의 일관성 문제는 잘 알려져 있으며, 이는 대규모 언어 모델(LLMs)을 실제 생산 환경에서 사용하는 데 큰 장애물 중 하나입니다. 전통적인 평가 지표인 ROUGE는 인간의 판단과 잘 맞지 않으며, 최신의 참조가 없는 평가 지표는 긴 소스 문서를 자르기 때문에 이 환경에서 적합하지 않습니다. 이러한 문제를 해결하기 위해 인간 주석을 통한 평가가 필요하지만, 이는 비용이 많이 들고 긴 문서 데이터 세트에 대한 인간 주석이 거의 없습니다.
  • #### 주요 기여
    • 1. **LongDocFACTScore**: 긴 문서 추상 요약의 사실성을 평가하기 위한 참조가 없는 평가 프레임워크.
    • 2. **LongSciVerify**: 사실성 평가를 위한 과학 문서의 전문가 주석 긴 문서 요약 데이터 세트.
    • 3. 다양한 자동 평가 지표가 인간 주석과 일치하는지 평가하여 LongDocFACTScore가 긴 문서 환경에서 다른 모든 지표보다 우수함을 보임.
  • #### LongDocFACTScore 방법론
    • 1. **문서와 요약 분할**: 소스 문서(D)와 생성된 요약(S)을 문장 단위로 분할합니다.
    • 2. **문장 임베딩 생성**: 각 문장에 대해 문장 임베딩을 생성합니다.
    • 3. **코사인 유사도 계산**: 예측된 요약의 각 문장(sj)과 소스 문서의 각 문장(si) 사이의 코사인 유사도를 계산합니다.
    • 4. **유사도 기반 재인덱싱**: 코사인 유사도 점수를 기준으로 문서를 재인덱싱합니다.
    • 5. **가장 유사한 문장 선택**: 가장 유사한 K개의 소스 문서 문장을 선택하고, 각 문장을 앞뒤 문장과 함께 연결합니다.
    • 6. **지표 점수 계산**: 선택된 소스 문서 텍스트 조각과 요약 문장 사이의 지표 점수를 계산하고, 최대 값을 취합니다.
    • 7. **전체 요약 점수 계산**: 생성된 요약의 각 문장에 대해 이 과정을 반복하여 전체 요약 점수를 계산합니다.
  • #### LongSciVerify 데이터 세트 구성
    • 1. **문서 샘플링**: PubMed와 ArXiv 긴 문서 데이터 세트에서 각각 15개의 문서를 샘플링합니다.
    • 2. **요약 생성**: 각 문서에 대해 세 가지 방법으로 세 가지 요약을 생성하여 총 270개의 요약을 만듭니다.
    • 3. **문장 주석**: 각 요약에서 세 개의 요약 문장을 무작위로 샘플링하고, 각 문장에 대해 두 개의 관련 소스 문서 섹션을 선택하여 주석자에게 사실성을 평가하도록 합니다.
  • #### 실험 결과
    • 1. LongDocFACTScore는 모든 긴 문서 데이터 세트에서 인간 주석과 가장 잘 일치하는 것으로 나타났습니다.
    • 2. 문서 전체 길이를 고려함에도 불구하고, 평가된 변형 기반 방법 중 두 번째로 빠른 방법이었습니다.
  • ### 기여 및 결론
    • 1. **기여**
    •    - 기존 자동 평가 지표가 짧은 문서 데이터 세트에서는 성능이 좋았지만, 긴 문서 환경에서는 잘 작동하지 않음을 보여주었습니다.
    •    - LongDocFACTScore는 소스 문서 전체를 고려할 수 있으며, 긴 문서 요약 데이터 세트에서 인간의 사실성 측정과 상관관계가 가장 높은 지표로 입증되었습니다.
    •    - LongSciVerify 데이터 세트를 공개하여 긴 문서 환경에서 자동 지표 평가를 위한 리소스 부족 문제를 해결하려고 했습니다.
  • 2. **결론**
    •    - LongDocFACTScore 프레임워크를 사용하여 다른 자동 지표, 특히 최신 LLM 기반 지표로 확장할 계획입니다.
    •    - 우리의 연구를 더 넓은 LLM 평가 프레임워크에 통합하고자 합니다.
    • 이 연구는 긴 문서 추상 요약의 사실성 평가에 대한 자동 지표 연구를 촉진하는 데 기여할 것입니다.

Knowledge Enhanced Pre-training for Cross-lingual Dense Retrieval

  • Abstract
    • 이 논문에서는 다국어 사전 훈련 언어 모델(mPLMs)이 교차 언어 밀집 검색에서 중요한 진전을 이루었지만, 대부분의 mPLMs가 지식의 중요성을 간과하고 있다고 지적합니다. 지식은 언어에 상관없이 유사한 의미를 전달하며, 교차 언어 검색에서도 공통적인 사실 정보를 공유합니다. 이러한 관찰을 바탕으로, 이 논문에서는 언어에 독립적인 의미 표현을 효과적으로 학습하기 위해 지식을 활용하는 새로운 mPLM인 KEPT를 소개합니다. 이를 위해 Wiki의 하이퍼링크와 교차 언어 페이지 정렬 데이터를 사용하여 다국어 지식 베이스를 구축하고, 대조 학습을 통해 KEPT를 사전 훈련합니다. KEPT는 세 가지 벤치마크에서 평가되었으며, 기존 mPLMs보다 뛰어난 다국어 및 교차 언어 검색 성능을 보여줍니다​​.
  • Introduction
    • 교차 언어 검색은 다양한 언어로 된 문서 컬렉션에서 관련 문서를 검색하는 것을 목표로 합니다. 이는 개방형 질의 응답, 대화 생성, 사실 확인 등 여러 다운스트림 작업에 중요합니다. 현재의 밀집 검색 기반 방법들은 강력한 성능을 보이며, 쿼리와 다국어 문서를 저차원의 언어 비종속 밀집 공간에 매핑하여 유사성을 측정합니다. 이를 위해 다국어 사전 훈련 언어 모델이 널리 사용되지만, 지식의 중요성을 간과하는 경향이 있습니다. 이 논문에서는 이러한 문제를 해결하기 위해 KEPT를 제안합니다.
  • ### 방법론 (Methodology)
    • 이 논문에서 제안하는 방법론은 주로 KEPT(지식 향상 사전 훈련 모델)를 구축하는 과정과 이를 통해 교차 언어 밀집 검색 성능을 향상시키는 방법을 설명합니다.
    • #### 1. 지식 기반 구축
      • KEPT는 다국어 지식 베이스를 구축하기 위해 위키피디아와 위키데이터를 사용합니다. 이를 통해 두 가지 종류의 긍정 쌍(Positive Pairs)을 생성합니다: 
      • - **언어 내 긍정 쌍(Intra-language Positive Pairs):** 위키피디아 페이지 내의 하이퍼링크를 활용하여 같은 언어 내에서 서로 연결된 문장 쌍을 생성합니다. 예를 들어, "Sunflowers (Van Gogh series)" 페이지의 문장이 "Vincent van Gogh" 페이지와 상호 링크된 경우, 이 두 문장을 하나의 긍정 쌍으로 취급합니다.
      • - **교차 언어 긍정 쌍(Cross-language Positive Pairs):** 위키데이터를 활용하여 서로 다른 언어로 작성된 동일한 엔티티에 해당하는 위키피디아 페이지를 연결합니다. 예를 들어, 영어 "Vincent van Gogh" 페이지와 중국어 "文森特·梵高" 페이지를 서로 연결하여 긍정 쌍을 생성합니다 .
    • #### 2. 대조 학습 (Contrastive Learning)
      • KEPT 모델은 대조 학습을 통해 사전 훈련됩니다. 대조 학습은 주어진 긍정 쌍을 사용하여 모델이 쿼리와 문서를 동일한 의미 공간에 매핑하도록 합니다. 이 과정에서 두 가지 종류의 긍정 쌍이 사용됩니다:
      • - **대칭 링크 쌍(Symmetrically Linked Pairs):** 동일한 정보를 포함하는 두 문장이 서로 대칭적으로 링크된 경우, 이를 대칭 링크 쌍으로 사용합니다. 예를 들어, "Sunflowers is... Vincent van Gogh"와 "During this... sunflowers" 같은 문장 쌍은 대칭 링크 쌍으로 간주됩니다 .
      • - **엔티티 링크 쌍(Entity Linked Pairs):** 동일한 엔티티를 나타내는 다국어 문장 쌍을 사용하여 교차 언어 긍정 쌍을 만듭니다. 예를 들어, 영어 "Vincent van Gogh" 페이지의 문장과 중국어 "文森特·梵高" 페이지의 문장을 연결합니다 .
    • #### 3. 긍정 쌍 생성 전략
      • - **다양한 샘플링(Diverse Sampling):** 기본 설정에서는 위키피디아 페이지 상단에서 문장을 선택하지만, 더 다양한 긍정 쌍을 생성하기 위해 페이지 전체에서 문장을 샘플링합니다. 이를 통해 더욱 다양한 교차 언어 지식 쌍을 확보할 수 있습니다 .
      • - **교차 언어 하이퍼링크 엔티티 설명(Cross-lingual Hyperlinked Entity Description):** 앵커 텍스트를 포함하는 문장을 쿼리로 간주하고, 다른 언어의 위키피디아 페이지에서 해당 엔티티 설명을 문서로 활용합니다 .
    • #### 4. 실험 및 평가
      • KEPT는 세 가지 주요 벤치마크(XOR-Retrieve, Mr. TyDi, Mewsli-X)에서 평가되었습니다. 실험 결과, KEPT는 기존의 다국어 사전 훈련 모델(mBERT, XLM-R 등)보다 뛰어난 성능을 보였으며, 특히 자원이 부족한 언어에서도 높은 성능을 나타냈습니다 .
    • 이와 같이 KEPT는 지식을 효과적으로 활용하여 다국어 검색 성능을 크게 향상시킬 수 있음을 입증했습니다.
  • Conclusion
    • KEPT는 지식을 활용하여 교차 언어 밀집 검색의 성능을 크게 향상시킬 수 있음을 보여줍니다. 실험 결과는 KEPT가 기존의 mPLMs에 비해 우수한 성능을 보이며, 제안된 방법론이 효과적임을 입증합니다. KEPT는 다운스트림 작업과 비용 효율적인 데이터 수집에 적합한 사전 훈련 작업을 통해 높은 성능을 달성합니다.

PromptStream: Self-Supervised News Story Discovery Using Topic-Aware Article Representations

  • 논문은 "PromptStream: Self-Supervised News Story Discovery Using Topic-Aware Article Representations"라는 제목으로, 자동으로 뉴스 기사를 주제로 분류하는 새로운 방법을 소개하고 있습니다. 각 섹션을 살펴보며 전체적인 내용을 설명하겠습니다.
  • ### 1. 초록 (Abstract)
    • PromptStream은 뉴스 기사에서 일관되고 포괄적인 스토리를 식별하는 새로운 방법입니다. 이 모델은 클로즈 스타일의 프롬프트(cloze-style prompting)를 사용하여 기사 임베딩을 구축하고, 자기 지도 학습(self-supervised learning)을 통해 뉴스 스트림의 변화하는 컨텍스트에 맞게 조정됩니다. 실험 결과, PromptStream이 최신 모델보다 우수한 성능을 보였으며, 선택된 뉴스 스토리를 통해 모델의 구조가 스토리 진행과 어떻게 일치하는지 보여줍니다.
  • ### 2. 서론 (Introduction)
    • 뉴스 스토리 디스커버리(News Story Discovery)는 일일이 생성되는 방대한 뉴스 기사에서 주제를 인식하고 추적하는 작업으로, 뉴스 요약, 추천 시스템 등 다양한 서비스에 유용합니다. 이 논문에서는 클로즈 스타일 프롬프트와 자기 지도 대조 학습(contrastive learning) 기법을 사용하여 뉴스 스트림에서 주제를 인식하는 모델을 제안합니다. 기존 연구는 주로 TF-IDF나 Doc2Vec과 같은 희소한(sparse) 문서 표현에 의존했으나, 최근에는 BERT와 같은 밀집한(dense) 문서 표현이 사용되고 있습니다.
  • ### 3. 관련 연구 (Related Work)
    • 기존 뉴스 스토리 디스커버리 연구는 주로 키워드 기반의 그래프나 TF-IDF 벡터를 사용하여 기사를 클러스터링했습니다. 최근에는 BERT 임베딩을 활용하여 뉴스 이벤트 인식을 개선하려는 시도가 있었습니다. 그러나 대부분의 방법은 외부 지식이나 라벨링된 데이터를 필요로 하여 실용성이 떨어지는 단점이 있었습니다.
  • ### 4. 새로운 모델: PromptStream (The New Model: PromptStream)
    • The representation Rd of an article d is the sum of two distinct representations: prompt-based representation and the output of the mean pooling over the last layer of the PLM:
    • PromptStream은 클로즈 스타일 프롬프트를 사용하여 기사에서 주제 관련 정보를 추출하고, 이를 기반으로 기사를 주제에 맞게 클러스터링합니다. 모델 아키텍처는 다음과 같습니다:
    • 1. **기사 표현 생성**: 클로즈 스타일 프롬프트를 사용하여 주제 관련 표현을 추출합니다.
    • 2. **자기 지도 학습**: 클러스터 수준의 대조 학습을 통해 기사를 지속적으로 업데이트합니다.
    • 3. **슬라이딩 윈도우**: 새로운 기사를 주제에 맞게 할당하고, 특정 기간마다 인코더를 업데이트합니다.
    • #### 예시:
      • 기사의 제목과 본문을 "[topic: <mask>] <title> <body>" 형식의 프롬프트로 변환하여 중요한 정보를 추출합니다.
  • ### 4.2 Online Story Assignment
    • #### Dynamic Story Representation
    • 논문에서 다루는 "Dynamic Story Representation"은 이야기 \( s \)의 표현을 이야기의 구성 요소인 기사 \( d \)들의 표현 \( R_d \)의 평균으로 계산합니다. 이는 다음과 같이 수식화됩니다:
    • \[ R_s = \frac{1}{|s|} \sum_{d \in s} R_d \]
    • 이 표현은 새로운 기사가 해당 이야기로 할당될 때마다 업데이트됩니다.
  • #### Article-Story Similarity
    • 새로운 문서 \( d_i \)가 주어진 슬라이딩 윈도우 \( W \) 내에서 어느 이야기 \( s_j \)에 속하는지 결정하기 위해, \( d_i \)와 \( W \) 내의 모든 이야기 \( s_j \) 사이의 유사성을 코사인 유사도(metric)를 사용하여 평가합니다:
    • \[ \text{sim}(d_i, s_j) = \cos(R_{d_i}, R_{s_j}) \]
    • 만약 \( d_i \)와 \( W \) 내의 이야기들 사이의 최고 유사도가 사전 정의된 임계값 \( \theta \)를 초과하면, \( d_i \)를 가장 높은 유사도를 가진 이야기 \( s_j \)에 할당하고, 그 이야기의 표현을 업데이트합니다. 그렇지 않으면, \( d_i \)를 사용하여 새로운 클러스터를 생성하고, 그 클러스터의 표현을 \( R_{d_i} \)로 설정합니다. 임계값 \( \theta \)는 기본적으로 0.5로 설정됩니다.
  • ### 4.3 Self-Supervised Continual Learning
    • #### Encoder 업데이트
    • 논문에서는 매 N일마다 클러스터 수준의 대조 학습(contrastive learning)을 사용하여 인코더를 업데이트합니다. 이는 프롬프트 기반 기사 표현에 적용됩니다. 이 손실 함수는 기사들이 자신의 클러스터 중심에 더 가깝게 이동하도록 유도하면서 동시에 다른 클러스터 중심으로부터 멀어지도록 합니다. 인코더를 매일 같은 날의 데이터로 업데이트하면 분포가 변동하여 인코더의 일관성을 저해할 수 있습니다. 따라서 여러 날의 데이터를 누적한 후 이 집계된 데이터셋으로 모델을 업데이트하는 것이 더 효과적입니다.
    • #### Confidence-Aware Memory Replay
    • 논문에서는 최신 N일 동안의 데이터를 포함하는 메모리 뱅크를 설정하여 대조 학습을 위한 데이터 소스로 사용합니다. 이때, 기사의 신뢰도는 해당 기사가 속한 이야기의 중심과의 유사도로 정량화됩니다. 신뢰도가 사전 정의된 임계값 \( \delta \)를 초과하는 샘플만 메모리 뱅크에 포함됩니다.
    • ### 예시
    • 논문에 포함된 알고리즘 1의 주요 단계는 다음과 같습니다:
    • 1. 초기 \( update\_freq \)일 동안의 데이터로 프롬프트 인코더를 미세 조정합니다.
    • 2. 슬라이딩 윈도우 \( W \) 내의 모든 새로운 기사 \( d \)에 대해 다음을 수행합니다:
    •     - 평균 풀링(mean pooling)과 프롬프트 기반 인코딩을 통해 각 기사의 표현을 생성합니다.
    •     - 새로운 기사가 기존 이야기와의 유사도가 임계값 \( \theta \)를 초과하면 해당 이야기로 기사를 할당하고, 그렇지 않으면 새로운 이야기로 기사를 할당합니다.
    • 3. \( counter \)가 \( update\_freq \)에 도달하면, 메모리 뱅크의 데이터를 사용하여 인코더를 대조 손실을 통해 업데이트합니다.
    • 이와 같은 절차를 통해 모델은 뉴스 기사 스트림에서 지속적으로 이야기 클러스터를 형성하고, 이야기 표현을 업데이트하며, 인코더의 일관성을 유지합니다   .
    • ### 요약
    • 논문의 주요 목표는 실시간 뉴스 기사 스트림에서 이야기를 효과적으로 발견하고, 새로운 기사를 기존 이야기와 연결하거나 새로운 이야기로 클러스터링하는 것입니다. 이를 위해 프롬프트 기반 표현과 평균 풀링 표현을 결합하여 기사의 표현을 생성하고, 클러스터 수준의 대조 학습을 통해 인코더를 지속적으로 업데이트합니다. 이 방법은 이야기 클러스터의 중심으로 기사를 이동시키면서 다른 클러스터로부터 멀어지게 하여 더 일관되고 정확한 이야기 표현을 유지합니다. 
    • 이 접근 방식은 기존의 방법들보다 뉴스 이야기 탐지에서 더 높은 성능을 보이며, 이야기 표현의 정확성을 높이기 위한 신뢰 기반 메모리 재생 기술을 포함합니다.
  • ### 5. 실험 및 결과 (Results and Discussions)
    • PromptStream은 세 가지 실제 뉴스 데이터셋에서 기존 모델보다 우수한 성능을 보였습니다. 평균 B3-F1 점수, AMI, ARI 모두에서 더 높은 점수를 기록했습니다. 특히, 프롬프트 기반 표현과 자기 지도 학습이 성능 향상에 크게 기여함을 확인했습니다.
  • ### 요약
    • PromptStream은 클로즈 스타일 프롬프트와 자기 지도 대조 학습을 통해 뉴스 기사를 주제에 맞게 분류하는 새로운 모델입니다. 실험 결과, 이 모델은 기존 방법보다 더 나은 성능을 보였으며, 실시간 뉴스 스트림에서 일관된 스토리를 효과적으로 식별할 수 있음을 입증했습니다.
  • 이 논문은 뉴스 스토리 디스커버리 분야에서 클로즈 스타일 프롬프트를 사용한 첫 번째 시도라는 점에서 의의가 있으며, 실용적인 뉴스 분석 및 추천 시스템에 유용한 도구가 될 수 있습니다.

Large Language Models Offer an Alternative to the Traditional Approach of Topic Modelling

  • 논문의 제목은 "Large Language Models Offer an Alternative to the Traditional Approach of Topic Modelling"입니다. 이 논문은 전통적인 주제 모델링 접근 방식에 대한 대안으로 대형 언어 모델(LLM)을 탐구합니다. 주요 섹션들에 대해 자세히 설명하겠습니다.
  • ### 1. Introduction (서론)
    • 이 섹션에서는 주제 모델링의 중요성과 기존 접근 방식의 한계점을 설명합니다. 주제 모델링은 문서 집합 내에서 중요한 주제를 자동으로 감지하는 데 사용되며, 다양한 학문, 비즈니스 및 연구 분야에서 중요한 역할을 합니다. 기존 접근 방식인 토픽 모델링(예: LDA)과 폐쇄형 주제 분류는 몇 가지 문제점을 가지고 있습니다. LDA는 의미적 이해 부족과 주제 중복 문제를 가지고 있으며, 폐쇄형 주제 분류는 사전 정의된 주제 집합에 의존하기 때문에 새로운 주제를 포착하지 못합니다. 이 논문은 이러한 문제를 해결하기 위해 LLM을 사용한 새로운 주제 추출 방법을 제안합니다【6:0†source】【6:3†source】.
  • ### 2. Related Work (관련 연구)
    • 이 섹션에서는 기존의 주제 모델링 연구와 LLM을 사용한 주제 모델링 연구를 검토합니다. 기존의 연구는 주로 LDA와 같은 주제 모델링 접근 방식을 개선하기 위해 LLM을 보조 도구로 사용했습니다. 반면, 이 논문은 LLM을 단독으로 사용하여 주제를 추출하고 이를 평가하는 새로운 접근 방식을 제안합니다. 또한, LLM의 강력한 언어 이해 능력을 활용하여 더 풍부하고 세부적인 주제 분류를 가능하게 한다고 주장합니다【6:1†source】【6:3†source】.
  • ### 3. Models and Datasets (모델 및 데이터셋)
    • 이 섹션에서는 사용된 모델과 데이터셋을 설명합니다. 두 가지 주요 LLM인 GPT-3.5와 LLaMA-2-7B를 사용하여 주제를 추출하고, 이를 LDA 및 BERTopic과 비교합니다. 또한, 두 개의 데이터셋인 20 News Group과 VaxxHesitancy를 사용하여 LLM의 일반화 능력을 평가합니다. 이러한 데이터셋은 텍스트 길이와 어휘의 밀도가 다르기 때문에 다양한 상황에서 모델의 성능을 테스트할 수 있습니다【6:1†source】【6:5†source】.
    • 논문에서는 세 가지 주요 실험을 통해 LLM(대형 언어 모델)을 사용하여 주제 추출의 효과를 입증하고 있습니다. 각 실험 섹션에서 사용된 방법론을 자세히 설명하겠습니다.
    • ### 실험 1: 기본 프롬프트 사용 (GPT & LLaMA Expt. 1 Basic Prompt)
      • 이 실험에서는 LLM을 사용하여 주제를 추출하는 기본 방법론을 평가합니다.
      • #### 방법론:
      • - **프롬프트 전략:** LLM에게 개별 문서를 제공하거나 배치로(예: 20개 문서) 제공하는 두 가지 프롬프트 전략을 조사했습니다. 
      • - **시스템 프롬프트:** 모델이 인간의 지시와 원하는 출력 형식을 이해하도록 돕는 역할을 합니다.
      • - **사용자 프롬프트:** 주제 추출을 위해 문서를 제공합니다.
      • - **출력 형식:** 구조화된 출력 형식은 이후의 주제 통계 및 평가에 중요합니다.
      • #### 결과:
      • - LLM이 기본 지시만으로는 질 높은 주제를 생성하는 데 어려움을 겪는다는 것을 관찰했습니다. 따라서, 초기 실험에서는 기본 프롬프트만으로는 만족스러운 결과를 얻기 어려웠습니다.
      • ### 실험 결과 및 분석
      • 논문에서 많은 주제를 얻었기 때문에 각 주제의 발생 횟수를 세고 최종 목록에서 상위 K개의 주제를 나열합니다. 주제의 발생 횟수는 주어진 데이터셋에서 각 주제의 비율을 나타냅니다. 그러나 초기 실험 결과, 두 가지 프롬프트 전략 모두 유사한 결과를 초래한다는 것을 관찰했습니다. 경험적으로 LLM은 문서 길이에 따라 한 번에 최대 20개의 문서를 처리할 수 있다는 것을 발견했습니다.
      • GPT와 LLaMA의 '기본 프롬프트'(Table 1 참조) 결과에 따르면, 기본 지시만으로는 LLM이 질 높은 주제를 생성하는 데 어려움을 겪는다는 것을 알 수 있습니다. VAXX 데이터셋(백신 주저와 관련된 세부적인 이유를 포함) 예시로, 다음과 같은 도전 과제가 확인되었습니다:
      • - **도전 과제 (i)**: GPT는 'Vaccine', 'COVID Vaccination', 'Vaccine Hesitancy'와 같은 매우 일반적인 주제를 생성하는 경향이 있습니다. 이는 데이터셋의 주요 테마로 이미 알려진 것들이며, 이는 GPT가 우리가 기대하는 주제의 세부 수준을 이해하지 못할 수 있음을 시사합니다. 반면, LLaMA는 이러한 일반적인 주제를 생성하지 않았습니다.
      • - **도전 과제 (ii)**: 최종 주제 목록을 수동으로 검사한 결과, 두 LLM이 생성한 주제 목록에서 상당한 중복이 발생한다는 것을 관찰했습니다. 예를 들어, LLM은 'side-effect', 'Side Effect', 'serious side effect', 'fear of side effects', 'vaccine side effect'와 같이 다양한 경우와 형식으로 주제를 생성할 수 있습니다.
      • - **도전 과제 (iii)**: 결과적으로 LLM은 많은 주제 목록을 생성하며, 대표적인 주제를 선택하는 데 큰 도전 과제를 제공합니다. VAXX 데이터셋에서 두 LLM은 약 2,500개의 주제를 추출했으며, 그 중 60%는 고유한 주제였습니다. 이러한 도전 과제를 고려할 때, 단순히 상위 K개의 가장 빈번한 주제를 선택하는 것만으로는 진정으로 대표적인 주제를 얻기 어려울 수 있습니다.
      • ### 솔루션
      • 주제 선택에 중요한 고품질 주제를 얻기 위해 다음과 같은 솔루션을 제안합니다:
      • - **프롬프트에 제약 추가**: LLM이 너무 광범위한 주제를 생성하지 않도록 프롬프트에 추가 제약을 도입합니다. 예를 들어, 시스템 프롬프트에서 'COVID-19' 및 'COVID-19 Vaccine'과 같은 광범위한 주제를 반환하지 않도록 모델을 안내합니다. 또한, 주어진 데이터셋의 세부 수준을 이해하도록 과제별 정보를 제공합니다. 예를 들어, COVID-19 백신 주저 이유와 관련된 주제를 반환하도록 프롬프트를 제공합니다.
      • - **수작업 규칙**: 각 반복 후에 유사한 출력을 변환하기 위해 후처리 규칙을 추가합니다. 여기에는 모든 단어를 소문자로 변환하고 하이픈을 빈 공간으로 대체하는 정규 표현식을 사용하는 것이 포함됩니다. 또한, 모든 원시 출력을 표준화하기 위해 텍스트 어간 추출 규칙을 적용합니다(예: 'vaccine effectiveness'와 'vaccine effective').
      • - **상위 K 주제**: 주어진 데이터셋에서 대표적인 주제를 식별하기 위해 상위 K 방법을 사용하여 가장 높은 빈도를 나타내는 주제에 초점을 맞춥니다. 대표적인 주제를 선택하기 위한 추가 방법은 섹션 4.3에서 논의됩니다.
      • 제안된 솔루션을 프롬프트에 통합함으로써, '기본 프롬프트'보다 개선된 주제 결과를 얻을 수 있었습니다(Table 1의 'GPT & LLaMA Expt. 1 + Manual Instructions' 참조).
    • ### 실험 2: 시드 주제 추가 (GPT & LLaMA Expt. 2 + Seed Topics)
    • 이 실험에서는 시드 주제를 추가하여 LLM의 주제 추출 성능을 향상시키고자 했습니다.
      • #### 방법론:
      • - **시드 주제 추가:** 모델에 특정 시드 주제를 제공하여 원하는 주제의 세부 수준을 이해하도록 유도합니다.
      • - **프롬프트 전략:** 시드 주제를 포함한 프롬프트를 사용하여 LLM이 보다 구체적이고 관련성 높은 주제를 생성하도록 합니다.
      • #### 결과:
      • - 시드 주제를 추가하면 LLM이 원하는 세부 수준의 주제를 더 잘 이해하고 추출할 수 있음을 확인했습니다. 이는 다양한 데이터셋과 LLM에서 일관되게 나타났습니다【3†source】.
      • ### 주제 모델링 접근 방식 및 세부 실험 설명
      • 주제 모델링 접근 방식은 특정 하이퍼파라미터를 설정하여 주제의 세부 수준을 제어할 수 있습니다. 또한 최소한의 도메인 지식을 가지고도 주제 모델링을 수행할 수 있습니다. 실험 1에서 제안된 솔루션은 효과적으로 관련 없는 주제를 필터링할 수 있었지만, 'vaccine side effect', 'fear side effect', 'serious side effect'와 같은 유사한 주제를 처리하는 데는 한계가 있었습니다. 자연어 이해 능력을 활용하여 시드 주제를 사용하는 향상된 프롬프트 설정을 테스트했습니다. 시드 주제를 제공하는 목적은 모델이 우리가 기대하는 주제의 세부 수준을 이해하도록 안내하는 것입니다. 이는 사람이 몇 가지 예시를 검토하여 새로운 문서 집합의 잠재적 주제를 이해하는 방식과 유사합니다.
      • #### 4.2.1 프롬프트 전략 (Prompting Strategies)
      • 원래 라벨 목록에서 두 가지 범주를 선택하여 시드 주제로 사용했습니다. 시드 주제는 프롬프트에 삽입되어 LLM이 기대하는 주제의 세부 수준을 이해하도록 안내합니다. 프롬프트 예시는 Figure 1의 두 번째 행 "Basic Prompt + Seeds Topic"에 시연되었습니다.
      • #### 4.2.2 결과 및 논의 (Results and Discussion)
      • Table 1에 따르면, 시드 주제를 추가하면 LLM의 주제 추출 성능이 다양한 데이터셋과 LLM에서 일관되게 향상된다는 것을 알 수 있습니다. 이는 시드 주제를 추가함으로써 모델이 원하는 주제의 세부 수준을 이해하는 데 도움을 줄 수 있음을 나타냅니다.
      • ### 실험 2: 시드 주제 추가
      • #### 방법론:
      • - **시드 주제 선택:** 원래 라벨 목록에서 두 가지 범주를 선택하여 시드 주제로 사용.
      • - **프롬프트 전략:** 시드 주제를 프롬프트에 삽입하여 LLM이 주제의 세부 수준을 이해하도록 안내.
      • - **결과:** 시드 주제를 포함한 프롬프트를 사용한 결과, 주제 추출 성능이 일관되게 향상됨.
      • #### 결과:
      • - 시드 주제를 추가함으로써 LLM이 기대하는 주제의 세부 수준을 더 잘 이해할 수 있게 되었고, 다양한 데이터셋에서 주제 추출 성능이 향상됨.
      • ### 요약
      • 주제 모델링 접근 방식은 특정 하이퍼파라미터를 설정하여 주제의 세부 수준을 제어할 수 있으며, 최소한의 도메인 지식을 가지고도 주제 모델링을 수행할 수 있습니다. 실험 1에서 제안된 솔루션은 효과적으로 관련 없는 주제를 필터링할 수 있었지만 유사한 주제를 처리하는 데 한계가 있었습니다. 시드 주제를 사용한 향상된 프롬프트 설정을 통해 모델이 우리가 기대하는 주제의 세부 수준을 이해하도록 안내할 수 있음을 실험 2를 통해 확인했습니다.
    • ### 실험 3: 주제 요약 (GPT & LLaMA Expt. 3 + Summarisation)
      • 이 실험에서는 최종 주제 목록을 요약하여 주제의 대표성을 높이고자 했습니다.
      • #### 방법론:
      • - **주제 요약:** LLM에게 추출된 주제 목록에서 N개의 적절한 주제를 요약하도록 프롬프트를 제공합니다.
      • - **프롬프트 전략:** 주제 목록을 병합하고 요약하도록 지시하는 프롬프트를 사용합니다. 또한 몇 가지 예시를 제공하여 모델이 원하는 세부 수준의 주제를 생성할 수 있도록 합니다.
      • - **평가:** 최종 주제 목록이 원본 데이터셋의 대부분의 범주를 포함하며, 이는 LLM이 광범위한 코퍼스를 요약하는 데 뛰어난 능력을 보유하고 있음을 나타냅니다.
      • #### 결과:
      • - LLM이 생성한 최종 10개의 주제는 원본 데이터셋의 주요 범주를 잘 포괄하며, 인간이 이해하기 쉬운 설명을 제공합니다【3†source】 .
      • ### 평가 메트릭 (Evaluation Metrics)
      • 기존의 평가 메트릭(혼란도, 일관성 점수)이 LLM이 생성한 새로운 형식의 주제를 처리하기 어려운 점을 보완하기 위해 새로운 평가 프로토콜을 제안했습니다.
      • #### 방법론:
      • - **Jaccard Distance:** 최상위 N개의 일반 주제와 해당 주제의 하위 주제들 간의 유사성을 평가합니다.
      • - **Cosine Similarity:** BERT 임베딩을 사용하여 주제 간의 평균 의미 유사성을 계산합니다.
      • #### 결과:
      • - 제안된 평가 메트릭은 주제의 세분화 수준과 해석 가능성을 높이는 데 유용하며, 자동화된 평가 프로토콜을 통해 모델 성능을 경험적으로 비교할 수 있습니다  .
      • ### 요약
      • 이 논문은 LLM을 사용한 주제 추출의 가능성을 탐구합니다. LLM은 적절한 프롬프트와 시드 주제를 사용하여 기존의 주제 모델링 접근 방식보다 더 구체적이고 해석 가능한 주제를 생성할 수 있습니다. 제안된 평가 메트릭은 주제의 질을 보다 정량적으로 평가할 수 있는 방법을 제공합니다.
  • ### 차별점 및 노벨티
    • - **차별점:** 기존의 주제 모델링 방법과 달리 LLM은 인간의 지시를 잘 따르고, 주제를 세분화하거나 통합할 수 있는 능력이 뛰어납니다.
    • - **노벨티:** 시드 주제와 요약 기법을 통한 주제 추출 방법론을 제안하고, 이를 평가할 새로운 메트릭을 개발하여 주제의 질을 정량적으로 평가합니다.
    • 이 논문은 LLM을 사용한 주제 추출의 가능성을 입증하고, 기존의 방법론과의 차별점을 명확히 하며, 새로운 평가 프로토콜을 통해 이를 정량적으로 뒷받침합니다.
  • ### 4. Experiments (실험)
    • 이 섹션에서는 LLM을 사용한 주제 추출 실험 결과를 제시합니다. 다양한 프롬프트와 수동 규칙을 사용하여 LLM의 성능을 평가한 결과, 적절한 프롬프트를 사용한 LLM이 전통적인 주제 모델링 접근 방식보다 더 나은 결과를 제공할 수 있음을 확인했습니다. 또한, LLM이 생성한 주제는 인간이 이해하기 쉬운 형태로 요약되고, 주제 간의 중복성을 줄일 수 있음을 보여줍니다【6:5†source】.
  • ### 5. Results (결과)
    • 이 섹션에서는 실험 결과를 종합하여 LLM의 주제 추출 성능을 평가합니다. 평가 지표를 사용하여 LLM이 생성한 주제의 품질을 측정하고, 이를 통해 LLM이 전통적인 주제 모델링 접근 방식보다 우수한 성능을 보일 수 있음을 입증합니다. 또한, 사례 연구를 통해 LLM이 실제 시나리오에서 어떻게 적용될 수 있는지를 보여줍니다. 예를 들어, 동적인 트위터 데이터셋을 분석하여 시간에 따른 주제 경향을 파악할 수 있습니다【6:5†source】.
  • ### 6. Conclusion (결론)
    • 이 섹션에서는 연구의 주요 결과를 요약하고, LLM을 사용한 주제 추출의 장점과 한계점을 논의합니다. LLM은 적절한 프롬프트를 사용할 경우, 기존의 주제 모델링 접근 방식을 대체할 수 있는 강력한 도구임을 확인했습니다. 또한, LLM의 언어 이해 능력을 활용하여 더 정확하고 세부적인 주제를 추출할 수 있습니다. 그러나, LLM을 사용한 주제 추출은 여전히 몇 가지 도전 과제를 가지고 있으며, 향후 연구를 통해 이러한 문제를 해결할 필요가 있습니다【6:5†source】.
  • ### 요약
    • 이 논문은 대형 언어 모델을 사용하여 전통적인 주제 모델링 접근 방식의 한계를 극복하고자 합니다. LLM은 적절한 프롬프트를 사용할 경우, 더 정확하고 이해하기 쉬운 주제를 생성할 수 있으며, 이는 다양한 실제 시나리오에서 유용하게 사용될 수 있습니다. 기존 연구와의 차별점은 LLM을 단독으로 사용하여 주제를 추출하고 이를 평가한 점이며, 이는 새로운 접근 방식으로서의 노벨티를 제공합니다.

CWTM: Leveraging Contextualized Word Embeddings from BERT for Neural Topic Modeling

  • 논문 "CWTM: Leveraging Contextualized Word Embeddings from BERT for Neural Topic Modeling"의 각 섹션에 대해 자세히 설명하겠습니다.
  • ### 1. 서론 (Introduction)
  • 서론에서는 기존의 토픽 모델들이 BOW (bag-of-words) 표현에 의존하는 한계를 지적합니다. BOW 접근법은 단어의 문법적, 의미적 관계를 무시하여 일관성 있는 주제를 생성하는 데 어려움을 겪으며, 새로운 문서에서 등장하는 OOV (out-of-vocabulary) 단어를 처리하는 데 한계가 있습니다. 이 논문은 BERT의 문맥화된 단어 임베딩을 활용한 새로운 신경 토픽 모델인 CWTM (Contextualized Word Topic Model)을 제안합니다. CWTM은 BOW 정보에 의존하지 않고 단어의 의미를 더 효과적으로 포착하여 더 일관성 있고 의미 있는 주제를 생성할 수 있습니다. 예를 들어, 기존 모델에서는 "bank"라는 단어가 "강둑"과 "은행"이라는 두 가지 의미로 사용될 때 이를 구분하지 못하지만, CWTM은 문맥에 따라 "bank"의 의미를 올바르게 구분할 수 있습니다 【3†source】.
  • ### 2. 관련 연구 (Related Work)
  • 이 섹션에서는 기존의 연구들을 리뷰합니다. 초기 연구들은 GloVe와 word2vec과 같은 사전 학습된 단어 임베딩을 통합하여 텍스트의 문법적 및 의미적 의미를 포착하려고 했습니다. 예를 들어, Nguyen et al. (2015)은 LDA와 GMM에 단어 임베딩을 통합하여 성능을 향상시켰습니다. 최근 연구들은 대규모 사전 학습된 언어 모델의 문맥화된 표현을 결합하여 단어 순서 정보를 포착하려고 합니다. Bianchi et al. (2021)은 BERT의 문서 임베딩을 통합하여 더 일관성 있는 주제를 생성하는 CTM (Contextualized Topic Model)을 제안했습니다. 그러나 이러한 연구들은 여전히 BOW 정보를 훈련 입력이나 목표로 사용하고 있으며, 문맥화된 단어 임베딩을 사용하지 않습니다. CWTM은 이러한 한계를 극복하기 위해 개발되었습니다 .
  • ### 3. 문맥화된 단어 토픽 모델 (Contextualized Word Topic Model)
  • 이 섹션에서는 CWTM의 구조와 작동 방식을 설명합니다. CWTM은 BERT의 문맥화된 단어 임베딩을 사용하여 단어의 토픽 벡터를 학습합니다. 먼저, 각 단어를 BERT를 통해 문맥화된 단어 임베딩으로 변환합니다. 그런 다음 다층 퍼셉트론을 사용하여 이 임베딩을 저차원 토픽 벡터로 매핑합니다. 각 단어의 중요도를 평가하기 위해 트랜스포머 레이어와 단일 레이어 퍼셉트론을 사용하여 중요도 가중치를 계산합니다. 문서의 토픽 벡터는 이러한 단어 토픽 벡터의 가중치가 적용된 평균을 통해 생성됩니다. 예를 들어, "The bank was flooded"라는 문장에서 "bank"는 물과 관련된 의미로 처리되며, "He went to the bank"에서는 금융 기관과 관련된 의미로 처리됩니다 【3†source】.

  • ### 4. 실험 (Experiments)
  • 이 섹션에서는 CWTM의 성능을 다양한 데이터셋에서 평가한 결과를 제시합니다. CWTM은 LDA 및 다른 신경 토픽 모델들과 비교하여 더 일관성 있고 의미 있는 주제를 생성하는 것으로 나타났습니다. 또한, CWTM은 새로운 문서에서 이전에 보지 못한 단어를 처리할 수 있는 능력이 뛰어납니다. 예를 들어, CWTM은 이전에 등장하지 않았던 기술 용어를 새로운 문서에서 적절하게 분류할 수 있습니다 .
  • ### 5. 결론 (Conclusion)
  • 결론에서는 연구의 주요 기여를 요약하고, 향후 연구 방향을 제안합니다. CWTM은 BERT의 문맥화된 단어 임베딩을 통합하여 BOW 정보에 의존하지 않고 더 일관성 있는 주제를 생성할 수 있습니다. 이 모델은 OOV 문제를 효과적으로 해결하며, 이름 인식과 같은 다운스트림 작업의 성능도 향상시킵니다. 향후 연구에서는 CWTM을 다양한 언어와 도메인에 적용해 볼 수 있을 것입니다 .
  • 각 섹션에서 논의된 내용은 CWTM의 개발과 성능 평가를 통해 기존 토픽 모델의 한계를 극복하고 새로운 가능성을 제시한 점에서 중요한 의미를 갖습니다.

Enhancing Few-Shot Topic Classification with Verbalizers A Study on Automatic Verbalizers and Ensemble Methods

  • ### 논문의 전체 내용 설명
    • 이 논문은 사전 훈련된 언어 모델(Pretrained Language Model, PLM)을 사용한 몇 샷 학습(일부 샘플만을 사용하여 학습하는 방법)에서 주제 분류 성능을 향상시키기 위한 연구입니다. 특히, 자동 버발라이저(Automatic Verbalizer)와 앙상블 방법(Ensemble Methods)의 효과를 조사합니다. 
  • #### 1. 서론
    • 최근 사전 훈련된 언어 모델(PLM)을 미세 조정(Fine-tuning)하는 방법은 다양한 자연어 처리(NLP) 작업에서 큰 성과를 거두었습니다. 그러나 이러한 방법은 많은 양의 레이블된 데이터가 필요하여, 데이터가 제한된 경우(예: 제로샷 또는 몇샷 상황)에는 적합하지 않습니다. 이에 따라, GPT-3에서 제안된 프롬프트 기반 학습(Prompt-based training) 접근법이 주목받고 있습니다.
    • 프롬프트 기반 학습은 PLM의 지식을 활용하고, 사전 학습과 미세 조정 간의 격차를 줄여줍니다. 이 방법에서는 템플릿과 버발라이저가 중요한 역할을 하며, 이는 작업별 입력과 레이블을 텍스트 데이터로 매핑해주는 기능을 합니다.
  • #### 2. 관련 연구
    • 프롬프트 기반 미세 조정에서는 입력을 작업별 템플릿으로 감싸서 언어 모델링 문제로 재구성합니다. 버발라이저는 마스크된 단어의 분포를 해석하여 출력 예측으로 변환합니다. 템플릿과 버발라이저의 선택은 분류 성능에 큰 영향을 미칩니다. 기존 연구에서는 도메인 전문가의 지식이 필요하거나 검색 과정이 매우 복잡할 수 있습니다. 최근에는 외부 지식 기반을 사용하거나 연속적인 프롬프트 최적화를 제안하는 연구도 있지만, 이는 데이터가 풍부한 상황에서만 효과적입니다.
  • #### 3. 방법론
    • ##### 언어 모델 \(M\)과 어휘 \(V\)
    • 우리는 언어 모델 \(M\)을 어휘 \(V\)와 함께 정의합니다. (Schick and Schütze, 2021a,b)의 방법을 따릅니다.
    • ##### 템플릿-버발라이저 쌍 정의
    • \( (x, y) \)를 분류 문제의 예시라고 하면, 여기서 \( x \)는 하나 이상의 문장이고 \( y \)는 레이블 세트 \( Y \)에 있는 레이블입니다. 템플릿 \( T \)는 \( x \)를 \( V \cup \{MASK\} \)의 토큰으로 이루어진 마스킹된 시퀀스 \( T(x) \)로 매핑합니다. 버발라이저 \( v \): \( Y \rightarrow P(V) \)는 각 레이블을 해당 클래스의 특성을 나타내는 단어 세트(레이블 단어)로 매핑합니다.
    • ##### 자동 버발라이저
    • 자동 버발라이저는 주어진 레이블 세트를 나타내기 위해 여러 레이블 단어를 검색합니다. 이는 각 레이블의 특성을 잘 표현할 수 있는 단어를 자동으로 선택하여 버발라이저를 구성하는 과정입니다.
    • ##### 앙상블 방법
    • 다양한 템플릿과 버발라이저를 조합하여 여러 모델을 학습시키고, 이 모델들의 출력을 결합하여 최종 예측을 만듭니다. 앙상블 방법에는 세 가지 집계 전략이 있습니다:
    • 1. 다수결 투표(majority vote)
    • 2. 클래스 확률 평균(averaging class probabilities)
    • 3. 클래스 로짓 평균(averaging class logits)
  • #### 4. 실험
    • ##### 실험 설정
    • 실험에서는 RoBERTa-large 모델을 사용합니다. 데이터셋은 원본 훈련 세트에서 샘플링한 레이블된 세트 \( D \)를 사용합니다. 각 실험은 다른 샘플링을 사용하여 3번 반복하여 결과 변동성을 평가합니다.
    • ##### 데이터셋
    • 실험에는 세 가지 공개 영어 데이터셋(AG's News, Yahoo! Answers, DBpedia)과 실제 프랑스어 데이터셋(FrN)을 사용합니다.
  • #### 5. 결과
  • ##### 초기 실험
    • FrN 데이터셋에서 제로샷 및 몇샷 상황을 테스트했습니다. 레이블 단어의 수가 증가할수록 자동 버발라이저의 성능이 향상됨을 확인했습니다.
    • ##### 주요 결과
    • 네 가지 데이터셋에 대해 다양한 데이터 양에서의 성능을 비교했습니다. 자동 버발라이저는 충분한 데이터가 있을 때 수동 버발라이저와 비슷한 성능을 보였으며, 일부 경우에는 더 나은 성능을 보였습니다. 특히, 앙상블 방법을 사용하면 개별 템플릿을 사용하는 것보다 성능이 향상되었습니다.
  • #### 6. 결론
    • 본 연구는 자동 버발라이저와 템플릿 앙상블 방법이 몇샷 학습 시 주제 분류 성능을 크게 향상시킬 수 있음을 보여주었습니다. 또한, 레이블 단어 수의 증가가 자동 버발라이저의 성능을 향상시키는 중요한 요소임을 확인했습니다.
  • ### 방법론 부분 번역
    • **언어 모델 \( M \)과 어휘 \( V \)**:  
    • 우리는 언어 모델 \( M \)을 어휘 \( V \)와 함께 정의합니다. (Schick and Schütze, 2021a,b)의 방법을 따릅니다.
    • **템플릿-버발라이저 쌍 정의**:  
    • \( (x, y) \)를 분류 문제의 예시라고 하면, 여기서 \( x \)는 하나 이상의 문장이고 \( y \)는 레이블 세트 \( Y \)에 있는 레이블입니다. 템플릿 \( T \)는 \( x \)를 \( V \cup \{MASK\} \)의 토큰으로 이루어진 마스킹된 시퀀스 \( T(x) \)로 매핑합니다. 버발라이저 \( v \): \( Y \rightarrow P(V) \)는 각 레이블을 해당 클래스의 특성을 나타내는 단어 세트(레이블 단어)로 매핑합니다.
    • **자동 버발라이저**:  
    • 자동 버발라이저는 주어진 레이블 세트를 나타내기 위해 여러 레이블 단어를 검색합니다. 이는 각 레이블의 특성을 잘 표현할 수 있는 단어를 자동으로 선택하여 버발라이저를 구성하는 과정입니다.
    • **앙상블 방법**:  
    • 다양한 템플릿과 버발라이저를 조합하여 여러 모델을 학습시키고, 이 모델들의 출력을 결합하여 최종 예측을 만듭니다. 앙상블 방법에는 세 가지 집계 전략이 있습니다:
    • 1. 다수결 투표(majority vote)
    • 2. 클래스 확률 평균(averaging class probabilities)
    • 3. 클래스 로짓 평균(averaging class logits)
    • 각 실험에서 다른 샘플링을 사용하여 3번 반복하여 결과 변동성을 평가합니다.

LANID: LLM-assisted New Intent Discovery

  • 이 논문은 **LANID: LLM-Assisted New Intent Discovery**라는 제목을 가지고 있으며, 새로운 의도를 발견하는 작업에서 대규모 언어 모델(LLM)의 제로샷 능력을 활용하여 성능을 향상시키는 프레임워크를 제안합니다. 다음은 논문의 주요 내용을 요약한 것입니다.
  • ### 1. 서론
    • - **배경**: 작업 지향 대화 시스템(Task-Oriented Dialogue, TOD)에서 데이터 주석은 비용이 많이 듭니다. 새로운 의도 발견(New Intent Discovery, NID)은 새로운 의도를 식별하면서 기존 의도를 인식할 수 있는 능력을 유지하는 작업입니다.
    • - **문제점**: 기존 방법은 외부 데이터 세트에 의존하여 확장성이 떨어지며, 대규모 언어 모델의 강력한 표현 능력에 크게 의존합니다.
    • - **해결책**: 이 논문은 모델 확장성의 제한을 극복하고 LLM의 제로샷 능력을 활용하여 NID 작업의 성능을 향상시키기 위해 LANID라는 프레임워크를 제안합니다.
  • ### 2. 관련 연구
    • - **NID 연구 분야**: 초기 연구에서는 비지도 클러스터링 방법을 탐구했지만, 이는 기존 라벨을 활용할 수 없고 실용적인 상황과는 다소 거리가 멉니다.
    • - **반지도 학습**: 기존 라벨과 새로운 의도를 모두 발견하기 위해 반지도 학습 방식을 사용하는 것이 더 적합합니다.
  • ### 3. 문제 정의
    • - **목표**: TOD 시스템에서 대량의 발화로부터 새로운 의도를 발견하는 것이 필요합니다. 이를 위해 비지도 및 반지도 설정에서 평가를 수행합니다.
  • ### 4. 방법론

    • - **발화 쌍 선택**: 로컬 및 글로벌 정보를 나타내는 Dtrain에서 발화 쌍을 선택합니다. KNN과 DBSCAN 알고리즘을 사용하여 적절한 발화 쌍을 선택합니다.
    • - **LLM 관계 결정**: LLM을 사용하여 발화 쌍 간의 관계를 결정합니다. 이는 "예" 또는 "아니오"로 응답합니다.
    • - **삼중 경계 손실 통합**: LLM의 출력을 삼중 경계 손실에 통합하여 텍스트 인코더를 미세 조정합니다. 이 과정을 반복하여 텍스트 인코더의 표현을 향상시킵니다.
    • - **클러스터링**: 학습된 표현을 기반으로 Dtest에서 클러스터링을 수행하여 새로운 의도를 발견합니다.
    • 다음은 논문의 Method 섹션과 그 하위 섹션에 대한 한국어 번역입니다.
    • ## 4. 방법론
      • 우리의 접근 방식은 텍스트 인코더를 사용하여 발화에서 특징을 추출한 다음 클러스터링을 통해 새로운 의도를 발굴하는 것입니다. 훈련 시에는 세 가지 주요 단계가 있습니다: 1) 로컬 및 글로벌 정보를 나타내는 Dtrain에서 발화 쌍을 선택 2) LLM에게 발화 쌍 간의 관계를 결정하도록 요청 3) LLM의 출력을 삼중 경계 손실(triplet margin loss)에 통합하여 텍스트 인코더의 매개변수를 업데이트. 위의 세 단계는 수렴할 때까지 반복됩니다. 이후 학습된 표현을 기반으로 Dtest에서 클러스터링을 수행합니다. 프로세스를 그림 1에 요약했습니다.
    • ### 4.1 발화 쌍 선택
      • 새로운 도메인에 텍스트 인코더를 빠르게 적응시키기 위해 LLM의 강력한 제로샷 기능을 활용하여 현재 도메인에서 발화 쌍 간의 관계를 결정하는 것을 제안합니다. 새로운 도메인의 데이터 분포를 정확하고 포괄적으로 나타내는 적절한 발화 쌍을 선택하는 것이 중요합니다. 이를 위해 로컬 및 글로벌 관점에서 발화 쌍을 선택합니다.
    • ### 4.2 발화 쌍 관계 결정
      • 선택된 발화 쌍을 사용하여 LLM에게 이들이 동일한 의도를 나타내는지 여부를 묻습니다. LLM의 응답은 예 또는 아니오로 표시됩니다. 이 과정에서 우리는 LLM의 제로샷 기능을 활용하여 새로운 의도 발굴을 돕습니다.
    • ### 4.3 삼중 경계 손실 통합
      • LLM이 결정한 관계를 기반으로 삼중 경계 손실(triplet margin loss)을 구성하여 텍스트 인코더를 미세 조정합니다. 이 손실 함수는 앵커 발화, 긍정 발화, 부정 발화 간의 거리를 조정하여 인코더가 의도 간의 차이를 더 잘 학습할 수 있도록 합니다.
  • ### 5. 실험
    • - **데이터 세트**: 세 가지 NID 데이터 세트에서 LANID의 성능을 평가합니다.
    • - **결과**: LANID는 비지도 및 반지도 설정 모두에서 강력한 기준선을 능가하는 성능을 보여줍니다.
  • ### 결론
    • - **요약**: 이 논문은 LLM의 제로샷 능력을 활용하여 작은 텍스트 인코더의 성능을 향상시키는 LANID 프레임워크를 제안합니다.
    • - **기여**: 새로운 의도 발견 작업에서 모델 확장성의 한계를 극복하고, LLM을 효과적으로 활용하는 방법을 제시합니다.
    • 이 논문은 대규모 언어 모델의 강력한 제로샷 능력을 활용하여 작업 지향 대화 시스템의 새로운 의도 발견 작업에서 성능을 향상시키는 방법을 제안하고 실험을 통해 그 효능을 입증합니다.

Distillation with Explanations from Large Language Models

  • 논문에서 저자가 제안한 프레임워크 "Distillation with Explanations from LLMs"에 대한 상세 설명을 제공하겠습니다.
    • ### 1. 도입
      • 대형 언어 모델(LLMs)인 ChatGPT와 GPT-4는 다양한 자연어 처리(NLP) 작업에서 탁월한 성능을 보이며, 답변과 함께 설명도 제공할 수 있습니다. 하지만 LLMs가 제공하는 답변은 항상 정확하지 않으며, 이는 작업 출력과 설명 생성에 잡음을 유발할 수 있습니다. 이를 해결하기 위해, 저자는 "LLMs로부터의 설명을 활용한 증류(Distillation with Explanations from LLMs)"라는 새로운 메커니즘을 제안했습니다【8:0†source】.
    • ### 2. 프레임워크 개요

      • 제안된 프레임워크는 LLMs로부터 생성된 답변과 설명이 일관성이 있음을 관찰하여, 이를 활용해 더 정확한 답변과 자유 텍스트 설명을 동시에 생성합니다. 구체적으로, 프레임워크는 다음과 같은 주요 구성 요소로 이루어져 있습니다:
      • 1. **답변-설명 일관성**: LLMs가 생성한 답변이 틀릴 수 있지만, 설명은 그 답변과 일관되게 생성된다는 점에 주목합니다. 이 일관성을 활용해 모델을 훈련시킵니다.
      • 2. **다중 작업 학습 목표**: 기본 작업 손실(Ltask), 설명 손실(Lexp), 및 일관성 정렬 손실(Lalign)을 포함한 다중 작업 학습 목표를 정의합니다.
      • 3. **자동 가중치 조정**: 학습 중 다양한 작업 간의 가중치를 자동으로 조정하는 방법을 채택하여 최적화를 달성합니다【8:4†source】.
      • 논문에서 저자가 제안한 "Distillation with Explanations" 프레임워크는 대형 언어 모델(LLMs)의 일관성 있는 답변과 설명을 활용하여 작은 모델을 훈련시키는 방법을 제시합니다. 이 프레임워크는 다음과 같은 주요 구성 요소와 과정을 포함합니다:
      • ### 1. 프레임워크 개요
      • 이 프레임워크는 LLMs가 생성한 답변과 설명 간의 일관성을 활용하여, 작은 모델이 더 합리적인 설명을 생성하도록 합니다. 전체 프레임워크는 다음과 같은 단계로 이루어집니다:
        • 1. **일관성 모델 훈련**: LLMs가 생성한 모든 주석(정확성 여부와 관계없이)을 사용하여 일관성 모델을 훈련시킵니다. 일관성 모델은 설명을 기반으로 답변을 생성할 확률을 평가합니다.
        • 2. **일관성 보상**: 일관성 모델에서 파생된 확률을 보상으로 사용하여 작은 모델 증류 과정에서 설명 생성을 안내합니다.
      • ### 2. 다중 작업 프레임워크 및 작업 감독 신호 선택
        • 기본 프레임워크는 입력 질문 \(I\)와 정답 \(O^*\)가 주어졌을 때, 작은 모델을 \(f\)로 표현합니다. 또한, LLMs는 답변 \(O_L\)과 설명 \(R_L\)을 생성합니다. 이 프레임워크는 다음과 같은 다중 작업 학습 목표를 가지고 있습니다:
        • - **기본 작업 손실 \(L_{task}\)**: 모델이 질문 \(I\)에 대해 정답 \(O^*\)를 생성하도록 학습합니다.
        • - **설명 생성 손실 \(L_{exp}\)**: 모델이 질문 \(I\)에 대해 설명 \(R_L\)을 생성하도록 학습합니다.
        • 두 작업 손실을 결합한 다중 작업 학습 목표는 다음과 같습니다:
        • \[ L = L_{task} + \lambda L_{exp} \]
      • ### 3. 일관성 모델
        • LLMs가 때때로 잘못된 답변을 생성할 수 있지만, 생성된 설명과 답변 간에는 일관성이 존재합니다. 이 일관성을 기반으로, 모든 예측 \(r_L \in R_L\)과 설명 \(y_L \in O_L\)을 사용하여 일관성 모델 \(s(r)\)을 훈련합니다. 일관성 모델의 손실은 다음과 같습니다:
        • \[ L_{consistency} = l(s(r), y_L) \]
        • 일관성 모델을 사용하여 설명이 주어졌을 때 답변을 생성할 확률 \(P_s(y|r)\)을 계산합니다.
      • ### 4. 강화 학습을 통한 정렬
        • 일관성 모델을 도입한 후, 생성된 설명과 답변 간의 일관성을 최적화하기 위해 REINFORCE 방법을 사용합니다. 모델이 생성한 설명 \(r\)과 생성된 예측 \(y\)에 대해, 설명의 보상은 일관성 모델이 \(r\)을 입력으로 받아 \(y\)를 출력할 확률로 계산됩니다. 최적화 효율성을 높이기 위해, 입력 질문 \(x\)만으로 일관성 모델이 \(y\)를 출력할 확률을 기준 보상으로 추가합니다. 강화 학습 손실은 다음과 같습니다:
        • \[ L_{align} = -(\text{score}(r; y) - \text{score}(x; y)) \log P_f(r) \]
        • 여기서, \(\text{score}(r; y) = \log P_s(y|r)\)은 설명 보상이고, \(\text{score}(x) = \log P_s(y|x)\)는 기준 보상입니다. \(P_f(r)\)은 증류된 모델 \(f\)가 \(r\)을 생성할 확률입니다.
        • 최종 다중 작업 학습 목표는 다음과 같이 조합됩니다:
        • \[ L = L_{task} + \lambda L_{exp} + \gamma L_{align} \]
      • ### 5. 자동 가중치 조정
        • 더 나은 최적화를 달성하기 위해, 다중 작업 학습에서 다양한 작업 간의 가중치를 자동으로 조정하는 방법을 채택합니다. 최적화 목표는 다음과 같이 정의됩니다:
        • \[ L = \frac{1}{2\sigma_1^2}L_{task} + \frac{1}{2\sigma_2^2}L_{exp} + \frac{1}{2\sigma_3^2}L_{align} + \log \sigma_1\sigma_2\sigma_3 \]
        • 여기서 \(\sigma_1, \sigma_2, \sigma_3\)는 업데이트할 파라미터입니다.
      • ### 요약
        • 제안된 "Distillation with Explanations" 프레임워크는 LLMs의 답변과 설명 간의 일관성을 활용하여 작은 모델의 성능을 향상시키는 혁신적인 접근 방식입니다. 이를 통해 더 정확한 예측과 합리적인 설명을 동시에 생성할 수 있습니다.
    • ### 3. 학습 과정
      • LLMs로부터 생성된 답변과 설명을 기반으로 작은 모델을 훈련시키기 위해 다음과 같은 과정을 거칩니다:
      • 1. **데이터 수집**: ChatGPT API를 통해 CommonsenseQA(CQA), WinoGrande, 그리고 COPA 데이터셋에 대한 답변과 설명을 생성합니다【8:5†source】.
      • 2. **일관성 평가**: 사전 훈련된 자연어 추론(NLI) 모델을 사용해 ChatGPT가 생성한 답변이 설명으로부터 추론될 수 있는지를 평가합니다. 이 과정에서 설명과 답변 간의 일관성을 확인합니다【8:3†source】【8:4†source】.
    • ### 4. 실험 결과
      • 실험을 통해 제안된 프레임워크가 다음과 같은 성능 향상을 보였습니다:
      • 1. **예측 성능 향상**: 제안된 방법은 기존 모델들보다 예측 정확도가 향상되었습니다.
      • 2. **설명 일관성 증가**: 모델이 생성한 설명이 더 높은 일관성을 보였으며, 이는 모델의 출력과 잘 맞아떨어졌습니다.
      • 3. **사례 연구**: 특정 테스트 사례를 통해 제안된 모델이 어떻게 답변을 수정하고 설명을 생성하는지를 설명했습니다【8:1†source】【8:2†source】.
    • ### 5. 결론
      • LLMs를 활용한 라벨링과 설명 생성은 편리하고 비용 효율적이며, 제안된 증류 프레임워크는 이러한 LLMs의 장점을 활용하면서도 그 한계를 극복하는 데 효과적입니다. LLMs로부터 잘못된 주석이 발생할 수 있지만, 그 설명과의 일관성을 유지하는 방법을 통해 작은 모델의 성능을 향상시킬 수 있음을 보여주었습니다【8:5†source】.

    ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

    • 이 논문은 ChatGPT의 상식 능력을 평가하는 내용을 다루고 있습니다. 주요 내용은 다음과 같습니다:
    • ### 논문의 개요
      • - **연구 목적**: 이 논문은 ChatGPT가 상식 질문에 효과적으로 답변할 수 있는지, 상식 지식을 인식하고 활용할 수 있는지 평가합니다【6:2†source】.
      • - **평가 방법**: 11개의 데이터셋을 사용하여 ChatGPT의 상식 능력을 다양한 측면에서 평가하였습니다. 여기에는 상식 질문에 답변하기, 필요한 지식을 식별하고 생성하기, 그리고 생성된 지식을 활용하여 질문에 다시 답변하는 능력이 포함됩니다【6:2†source】【6:0†source】.
    • ### 상식의 정의
      • - **상식 지식**: 상식은 공간적, 물리적, 사회적, 시간적, 심리적 측면에서 일상 생활에 대한 일반적인 지식을 포함합니다. 이는 대부분 사람들이 공유하고 진실로 여기는 지식, 물체가 떨어지면 땅으로 떨어진다는 물리적 상식, 사회적 규범 등 다양한 범주로 나뉩니다【6:0†source】.
    • ### 주요 실험 결과
      • 1. **질문 답변 능력**: ChatGPT는 상식 질문에서 높은 정확도를 보였지만, 특정 도메인에서는 여전히 어려움을 겪고 있습니다. 예를 들어, 사회적 상식과 시간적 상식에서 약점을 보였습니다【6:3†source】【6:0†source】.
      • 2. **지식 생성 능력**: ChatGPT는 지식 프롬프트를 사용하여 대부분의 상식 지식을 정확하게 생성할 수 있지만, 필요한 상식 지식을 정확히 식별하는 데 어려움을 겪습니다【6:0†source】【6:5†source】.
      • 3. **경험 부족**: ChatGPT는 많은 정보를 암기하고 있지만, 이를 효과적으로 활용하여 문제를 해결하는 데에는 경험이 부족합니다. 즉, 상식 지식을 맥락에서 효과적으로 활용하지 못합니다【6:3†source】【6:0†source】.
    • ### 3. ChatGPT는 상식 질문에 효과적으로 답변할 수 있는가?
      • 이 섹션에서는 ChatGPT의 상식 질문 답변 성능을 평가합니다. 우리는 일반, 물리, 사회, 과학, 사건, 숫자, 전형적, 시간적 지식을 포함하는 8개의 상식 도메인을 다루는 11개의 상식 QA 데이터셋을 사용합니다. 사용된 11개의 데이터셋은 CommonsenseQA, OpenBookQA, WSC, PIQA, Social IQA, ARC (Easy set), QASC, HellaSWAG, NumerSense, ProtoQA, MC-TACO입니다. 데이터셋, 도메인, 각 데이터셋의 예시는 아래 표 1에 나와 있습니다.
      • 우리는 각 데이터셋의 개발 세트에서 100개의 질문을 샘플링했으며, ProtoQA의 경우 개발 세트에 52개의 질문만 있습니다. 평가를 위해 GPT-3(davinci), Instruct GPT(text-davinci-003), ChatGPT(GPT-3.5 웹 인터페이스)를 사용합니다. GPT-3의 경우, zero-shot 설정에서 효과적으로 질문에 답변할 수 없기 때문에 4-shot in-context learning을 사용합니다. Instruct GPT와 ChatGPT의 경우, zero-shot 추론을 사용하며 각 데이터셋에 대해 프롬프트 템플릿을 설계했습니다.
      • ### 결과
      • 테이블 2의 결과에서 다음을 확인할 수 있습니다:
      • - **Instruct GPT와 ChatGPT는 상식 질문에 높은 정확도를 보여줍니다**: 11개의 상식 QA 데이터셋에 대한 LLM들의 성능을 평가한 결과, Instruct GPT와 ChatGPT는 대부분의 데이터셋에서 높은 정확도를 보였습니다. 특히 ChatGPT는 ARC 데이터셋에서 94%, ProtoQA 데이터셋에서 94.2%의 정확도로 가장 높은 성능을 보였습니다. 이는 ChatGPT가 다양한 유형의 상식 질문에 대해 정확하게 답변할 수 있음을 나타냅니다. 하지만 모델과 인간 간의 정확도 차이는 여전히 큽니다.
      • - **모델의 상식 활용 능력은 지시 조정 및 인간 정렬에 의해 향상됩니다**: 테이블 2에서 주목할 점은 Instruct GPT와 ChatGPT가 GPT-3에 비해 성능이 크게 향상되었다는 것입니다. 이는 훈련 과정에서 지시 조정 및 인간 정렬의 도입에 기인한 것으로 보입니다. 이러한 기술들은 모델이 상식 지식을 더 잘 활용하고 추론할 수 있게 하는데 중요한 역할을 합니다.
      • - **전반적으로 ChatGPT는 대부분의 도메인에서 Instruct GPT보다 높은 정확도를 기록했습니다**: 이는 RLHF(강화 학습을 통한 인간 피드백) 기술이 지식 활용 능력 향상에 효과적임을 보여줍니다. 그러나 Instruct GPT는 특정 데이터셋(CommonsenseQA와 Social IQA)에서 ChatGPT보다 약간 더 나은 성능을 보였습니다. 이는 ChatGPT가 정보가 충분하지 않을 때 답변을 주저하는 경향이 있기 때문입니다. 이러한 경우 "주어진 정보로는 판단할 수 없습니다"라는 응답이 나오며, 이는 직접적이고 정확한 답변을 생성하지 못한 것으로 간주되어 오답으로 처리됩니다. CommonsenseQA에서 ChatGPT는 100개의 질문 중 4개의 질문에 대해 이러한 응답을 생성했으며, Social IQA에서는 100개의 질문 중 13개의 질문에서 이러한 응답이 나왔습니다. 이는 정보가 불충분한 상황에서 모델의 주의와 정확성의 균형을 맞추는 방법에 대한 추가 연구의 필요성을 강조합니다.
      • - **ChatGPT는 대부분의 상식 지식 도메인에서 잘 수행하지만, 특정 도메인에서는 여전히 어려움을 겪습니다**: 테이블 2의 실험 결과에 따르면 ChatGPT는 사회적, 사건적, 시간적 도메인(Social IQA, HellaSWAG, MC-TACO 데이터셋)에서 70% 이하의 성능을 보였습니다. 이는 ChatGPT가 인간 행동과 사회적 상호작용에 대한 깊은 이해가 필요하고 텍스트 코퍼스에서 자주 나타나지 않는 이러한 도메인의 상식에 여전히 한계를 가지고 있음을 보여줍니다. ChatGPT는 피상적인 의미 이해를 넘어 인간 행동에 대한 학습이 필요합니다.
    • 논문의 "4. Is ChatGPT Aware of the Commonsense needed for QA?" 섹션에서는 ChatGPT가 질문에 답하는 데 필요한 상식적 지식을 인지하고 있는지 평가한다. 
      • 이를 위해, 연구진은 다음과 같은 실험을 수행했다:
      • 1. **상식적 질문에 답변하기**: ChatGPT가 상식적 질문에 얼마나 잘 답변할 수 있는지 평가했다. 이를 통해 ChatGPT의 전반적인 성능을 파악했다.
      • 2. **필요한 상식적 지식 인지**: ChatGPT가 질문에 답하기 위해 필요한 상식적 지식을 얼마나 잘 이해하고 있는지 평가했다. 모델에게 필요한 지식을 설명하도록 유도하고, 그 설명의 정확성과 적절성을 평가했다.
      • 3. **지식 활용 능력 평가**: ChatGPT가 상식적 지식을 활용하여 질문에 답하는 능력을 평가했다. 이전 실험에서 생성된 지식을 문맥으로 사용하여 모델이 이를 활용해 질문에 답할 수 있는지 확인했다.
      • 4. **결과 비교**: "골든" 지식을 사용하여 모델의 성능을 비교했다.
      • 실험 결과, ChatGPT는 상식적 지식을 보유하고 있지만, 특정 질문을 해결하는 데 필요한 상식적 지식을 정확하게 식별하거나 이를 효과적으로 활용하는 데는 한계가 있음을 보여주었다. ChatGPT는 상식적 문제 해결에 경험이 부족하며, 따라서 특정 상식적 지식을 식별하고 활용하는 데 어려움을 겪고 있다【6:2†source】.
    • 논문의 "5. Is ChatGPT Knowledgeable in Commonsense?" 섹션에서는 ChatGPT가 상식적 지식을 얼마나 잘 보유하고 있는지 평가한다. 주요 내용은 다음과 같다:
      • 1. **상식적 지식 생성**: ChatGPT는 상식적 질문에 대해 지식 프롬프트를 사용하여 대부분의 상식적 지식을 정확하게 생성할 수 있다. 연구 결과, ChatGPT는 여러 상식적 QA 데이터셋에서 70% 이상의 정확도를 달성했다.
      • 2. **문제 해결 능력**: ChatGPT는 상식적 문제 해결에 있어 경험이 부족하다. 특정 질문을 해결하는 데 필요한 상식적 지식을 정확하게 식별하지 못하고, 관련 없는 정보도 생성하는 경향이 있다. 이는 특히 사회적 및 시간적 상식 영역에서 두드러진다.
      • 3. **소셜 및 시간적 상식**: ChatGPT는 과학적 상식에는 강하지만, 사회적 및 시간적 상식에는 약한 성능을 보였다. 이는 텍스트 코퍼스에서 과학적 상식이 더 많이 다뤄지기 때문으로 보인다.
      • 4. **지식 활용**: ChatGPT는 문맥에서 상식적 지식을 효과적으로 활용하지 못하는 경우가 많다. 이는 모델이 논리적 관계를 완전히 이해하기보다는 키워드와 주제 일치에 의존하기 때문으로 보인다.
      • 종합적으로, ChatGPT는 상식적 지식을 보유하고 있지만, 이를 문제 해결에 효과적으로 적용하는 데는 한계가 있다【12:0†source】【12:1†source】【12:2†source】【12:4†source】.
    • 논문의 "6. Can ChatGPT Effectively Leverage Commonsense for Reasoning?" 섹션에서는 ChatGPT가 상식적 지식을 활용하여 추론하고 질문에 답할 수 있는지를 평가한다. 주요 내용은 다음과 같다:
      • 1. **지식 활용 실험**: 연구진은 ChatGPT가 생성한 상식적 지식을 문맥으로 제공하여 질문에 다시 답하게 했다. 이는 ChatGPT가 문맥에서 상식적 지식을 얼마나 효과적으로 활용할 수 있는지 평가하기 위함이다.
      • 2. **결과 분석**: 
      •    - **일관성 부족**: 상식적 지식을 문맥으로 제공했을 때, 대부분의 데이터셋에서 ChatGPT의 응답 정확도에 뚜렷하고 일관된 향상이 나타나지 않았다.
      •    - **지식 생성의 정확성**: ChatGPT가 생성한 지식의 정확성이 답변 결과에 큰 영향을 미쳤다. 예를 들어, Social IQA 데이터셋에서는 생성된 지식의 정확도가 낮아 오히려 올바른 답변이 잘못된 답변으로 바뀌는 경우가 많았다.
      •    - **기존 지식 보유**: ChatGPT는 이미 내재된 지식을 보유하고 있어 추가적인 지식 문맥이 큰 영향을 미치지 않는 것으로 보인다.
      • 3. **문제점**: 
      •    - **지식 활용 능력의 한계**: ChatGPT는 생성된 지식을 문맥으로 활용하여 답변을 개선하는 데 한계를 보였다. 이는 모델이 이미 보유한 지식과 새로 제공된 지식을 효과적으로 결합하지 못하기 때문이다.
      •    - **지식 생성의 품질**: 잘못된 지식이 문맥으로 제공될 경우, 답변의 정확도가 오히려 떨어지는 경우가 발생했다.
      • 종합적으로, ChatGPT는 상식적 지식을 활용하는 데 한계를 보이며, 특히 생성된 지식의 품질과 이를 문맥에서 효과적으로 결합하는 능력에서 문제가 있음을 알 수 있다【16:5†source】【16:1†source】.
    • ### 결론 및 향후 연구 방향
      • - **개선 필요성**: 현재의 ChatGPT는 상식 지식을 많이 알고 있지만, 이를 문제 해결에 효과적으로 적용하는 데는 한계가 있습니다. 따라서 더 나은 지침 제공과 상식 기반 추론 방법을 탐구할 필요가 있습니다【6:3†source】.
      • - **지식 주입 방법**: 상식 지식이 부족한 부분, 특히 사회적 및 시간적 상식에 대해 더 나은 지식 주입 방법을 설계하는 것이 중요합니다. 또한, 지식을 최신 상태로 유지할 수 있는 경량화된 업데이트 방법을 설계하는 것이 필요합니다【6:3†source】.
      • - **평가 방법 개선**: ChatGPT의 훈련 데이터나 하이퍼파라미터 등의 세부 정보가 공개되지 않았기 때문에, 더 넓은 범위를 포괄하는 벤치마크를 구축하고, 포괄적이고 편향되지 않은 평가 방법을 설계하는 것이 중요합니다【6:3†source】.
      • 이 논문은 ChatGPT의 상식 능력에 대한 포괄적인 평가를 제공하며, 향후 연구 방향에 대한 유용한 통찰을 제공합니다.
      • ChatGPT의 상식적 능력을 조사한 결과, ChatGPT는 지식이 풍부하지만 경험이 부족한 문제 해결자라는 결론을 내렸습니다.

        1. ChatGPT는 상식적 QA에서 좋은 정확도를 달성할 수 있지만, 여전히 사회적 및 시간적 상식과 같은 특정 영역에서는 어려움을 겪고 있습니다. ➢ 현재의 지식 강화 CQA 방법으로는 LLMs의 지식 잠재력을 충분히 활용하지 못하고 있습니다.

        2. ChatGPT는 상식적 지식에 있어 풍부한 지식을 가지고 있으며, 지식 프롬프트를 사용하여 대부분의 상식적 지식을 정확하게 생성할 수 있습니다.

        우리는 ChatGPT의 상식적 능력을 조사한 결과, ChatGPT는 지식이 풍부하지만 경험이 부족한 문제 해결자라는 결론을 내렸습니다.

        1. ChatGPT는 경험이 부족한 상식 문제 해결자로, 주어진 질문에 대한 상식적 지식을 정확하게 식별하는 데 어려움을 겪고 있으며, 종종 높은 잡음 비율의 지식을 생성합니다.

        2. ChatGPT는 문맥에서 상식적 지식을 효과적으로 활용하여 상식적 질문에 답하지 못합니다.

    Step-by-Step: Controlling Arbitrary Style in Text with Large Language Models

    • 논문은 텍스트 스타일 변환(Text Style Transfer, TST)에 관한 연구입니다. 텍스트 스타일 변환은 텍스트의 내용은 유지하면서 스타일을 바꾸는 작업입니다. 예를 들어, 부정적인 문장을 긍정적으로 바꾸거나, 비공식적인 문장을 공식적으로 바꾸는 것이 포함됩니다. 
    • 이 논문에서는 큰 언어 모델(Large Language Models, LLMs)을 사용한 새로운 방법을 제안합니다. 기존의 방법들은 많은 양의 병렬 또는 비병렬 코퍼스가 필요하며, 이는 고품질 데이터를 확보하는 것이 어렵고, 하나의 모델로 여러 스타일 변환을 수행하는 데 한계가 있었습니다.
    • ### 주요 내용 요약:
    • 1. **기존 방법의 한계**:
    •    - 병렬 또는 비병렬 코퍼스가 많이 필요함.
    •    - 하나의 모델로는 여러 스타일 변환을 수행하는 데 한계가 있음.
    •    - 문장을 전체적으로 생성하는 방식의 낮은 제어 가능성과 오류 누적 문제.
    • 2. **제안된 방법**:
    •    - **편집 영역 획득 단계**: 입력 텍스트에서 스타일 단어를 식별하고 마스킹하여 편집 영역을 획득.
    •    - **유효성 검증 단계**: 마스킹된 시퀀스의 유효성을 검증하여 편집 영역의 정확성을 보장.
    •    - **스타일 정보 채우기 단계**: 유효한 마스킹된 시퀀스를 기반으로 사용자가 지정한 타겟 스타일에 맞춰 최종 출력을 생성.
    • 3. **방법의 장점**:
    •    - 오류 누적 문제를 줄이기 위해 특정 영역의 텍스트만 수정.
    •    - 스타일 단어를 암묵적으로 마스킹하여 더 많은 컨텍스트 정보를 유지.
    •    - 여러 스타일의 변환을 효과적으로 수행 가능.
    • 이 연구는 다양한 공개 데이터셋에서 실험을 통해 제안된 방법이 최신 성능을 달성함을 확인했습니다. 이 논문의 주요 기여는 텍스트 스타일 변환을 위한 새로운 프롬프트 기반 편집 및 전체 채우기 방법을 제안한 것입니다  【3†source】 .
    • 논문에서 제안된 방법인 "Prompt-based Editing and Global Filling model (PEGF)"는 텍스트 스타일 변환(TST)을 보다 효과적으로 수행하기 위해 세 단계로 나누어집니다. 각각의 단계를 예시와 함께 설명하겠습니다.
    • ### 1. 편집 영역 획득 단계 (Editing Area Acquisition Stage)
      • **목표**: 입력 텍스트에서 스타일 단어를 식별하고, 이 단어들을 마스킹하여 편집할 영역을 결정합니다.
      • **세부 과정**:
      • - **스타일 단어 식별**: 두 가지 방법을 사용하여 스타일 단어를 식별합니다. 하나는 프롬프트 기반 접근법이고, 다른 하나는 단어 빈도 기반 접근법입니다.
      • - **마스킹**: 식별된 스타일 단어를 마스킹하여 편집할 영역을 생성합니다.
      • **예시**:
      • - 입력 문장: "The food is very delicious."
      • - 스타일 단어 식별 결과: "delicious" (프롬프트 기반 접근법 또는 단어 빈도 기반 접근법으로 식별)
      • - 마스킹 후 문장: "The food is very [MASK]."
      • ### 3.2 편집 영역 획득 단계
      • 이 단계에서는 입력 텍스트의 편집 영역을 결정합니다. 스타일 단어를 식별하고 마스킹하여 편집 영역을 나타냅니다. 우리는 두 단계로 구성된 편집 영역 획득 전략을 제안하며, 이는 식별과 마스킹으로 이루어집니다. 스타일 정보는 프롬프트 기반 접근법과 단어 빈도 기반 접근법을 통해 식별됩니다. 이후 식별된 스타일 정보를 마스킹하여 마스킹된 시퀀스를 생성합니다.
      • 모델은 입력 텍스트 \( x \)와 소스 스타일 \( s \)를 입력으로 받아 스타일 단어를 식별하고 마스킹합니다.
      • **1. 스타일 단어 식별**: 
      • - 모델은 프롬프트 기반 접근법과 단어 빈도 기반 접근법을 사용하여 스타일 단어를 식별합니다.
      • - 이후 마스크 벡터 \( v = [v1, v2, v3, \ldots, vn-2, vn-1, vn] \)를 생성합니다. 프롬프트와 단어 빈도를 기준으로 별도로 마스크 벡터 \( v \)와 \( v' \)가 생성됩니다.
      • **2. 스타일 단어 마스킹**: 
      • - 마스크 벡터 \( v \)에서 \( v_i \in \{0, 1\} \)은 입력 텍스트 \( x \)에서 \( i \)번째 단어가 스타일 단어인지 여부를 나타냅니다.
      •   - \( v_i = 0 \)이면, 해당 단어는 스타일 정보가 적고 내용 관련 단어로 간주되어 보존됩니다.
      •   - \( v_i = 1 \)이면, 해당 단어는 스타일 정보를 많이 포함하는 스타일 단어로 간주되어 마스킹됩니다.
      • **예시**:
      • - 입력 문장: "The waiters in this restaurant are very polite and the food is delicious."
      • - 모델은 스타일 단어를 식별하고 마스크 벡터 \( v = [0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1] \)을 생성합니다. 이는 모델이 "polite"와 "delicious"를 스타일 단어로 인식했음을 나타냅니다.
      • - 이후 스타일 단어에 해당하는 "polite"와 "delicious"를 마스킹하여 마스킹된 시퀀스를 생성합니다. 예를 들어, 스타일 단어를 [MASK]로 마스킹하면, "The waiters in this restaurant are very [MASK] and the food is [MASK]."와 같이 됩니다.
      • #### 프롬프트 기반 편집 영역 획득
      • 이전 연구들에 따라 (Reif et al., 2022; Suzgun et al., 2022), 실험에서는 두 가지 LLM 모델(text-davinci-002와 text-davinci-003)을 벤치마크 모델로 사용합니다. 스타일 단어를 식별하기 위해 다음과 같은 프롬프트 템플릿을 설계합니다:
      • ```
      • This is a [S] sentence: {x}, what is the [S] score for each word? Assign scores within the range of -1 (very [s]) to +1 (very [t]).
      • ```
      • 여기서 \( x \)는 입력 문장을 나타내고, \( S \)는 스타일 집합을 나타내며, \( s \)와 \( t \)는 각각 소스 스타일과 타겟 스타일을 나타냅니다. 특정 임계값을 초과하는 단어는 스타일 단어로 지정됩니다.
      • #### 단어 빈도 기반 편집 영역 획득
      • 프롬프트 기반 방법이 데이터 훈련 또는 미세 조정 기반 방법보다 신뢰성과 안정성이 낮다는 연구 결과가 있습니다 (Reif et al., 2022). 이를 해결하기 위해, 프로토타입 편집 방법에 영감을 받아 (Li et al., 2018), 감정 변환 작업에서 단어 빈도 기반 접근법을 추가로 채택하여 스타일 단어를 식별하고, 이를 프롬프트 기반 접근법과 결합하여 모델의 편집 영역 획득 안정성과 신뢰성을 높입니다.
      • 공식적으로, 주어진 단어 \( w \)에 대해, 다음과 같은 식을 사용하여 스타일 단어로서의 상태를 결정합니다:
      • \[ f(w, s) = count(w, D_s) + \lambda \left( \sum_{s' \in S, s' \ne t} count(w, D_{s'}) \right) + \lambda \]
      • 여기서 \( w \)는 단어를 나타내며, \( \lambda \)는 스무딩 파라미터이고, \( count(w, D_s) \)는 \( D_s \)에서 \( n \)-그램(\( w \))의 발생 횟수를 나타냅니다. \( f(w, s) \)가 특정 임계값 \( \gamma \)를 초과하면 \( w \)를 스타일 단어로 정의합니다.
    • ### 2. 마스킹된 시퀀스의 유효성 검증 단계 (Validity Verification Stage)
      • **목표**: 마스킹된 시퀀스가 적절한지 확인하여 편집 영역의 정확성을 보장합니다.
      • **세부 과정**:
      • - 모델이 마스킹된 시퀀스의 유효성을 검증합니다.
      • - 검증된 시퀀스는 다음 단계에서 사용됩니다.
      • **예시**:
      • - 마스킹된 문장: "The food is very [MASK]."
      • - 유효성 검증 결과: "The food is very [MASK]." (유효한 시퀀스)
      • 최근 인간의 피드백을 통해 대형 언어 모델(LLM)을 올바른 방향으로 유도하여 원하는 답변을 얻을 수 있다는 것이 발견되었습니다 (OpenAI, 2023). 이 아이디어에 영감을 받아, LLM이 스타일 정보를 효과적으로 인식하고 마스킹할 수 있도록 유도하며, 편집 영역 획득 단계에서 얻어진 마스킹된 시퀀스의 유효성을 보장하기 위해 기계 피드백 개념을 채택하고, 판별자 모듈을 설계했습니다. 또한, 입력 문장의 더 많은 원본 내용을 보존하기 위해 암묵적 마스킹 모듈을 설계했습니다.
      • ### 판별자 모듈 (Discriminator Module)
      • 편집 영역의 유효성을 검증하고 스타일 정보가 올바르게 식별 및 마스킹되었는지 확인하기 위해 우리는 판별자 모듈을 설계합니다. 판별자는 모델의 출력 마스킹 시퀀스(x' 및 x''로 표시됨)의 유효성을 결정합니다. 결과는 LLM과 빈도 기반 편집 영역 획득 모듈에 다시 피드백됩니다. 판별기에 들어가는 마스킹 시퀀스는 스타일 단어가 [MASK]로 대체되는 [MASK] 마스킹 방식을 채택하고 있음을 주목해야 합니다.
      • 구체적으로, 우리는 잘 훈련된 분류기를 판별자 모듈로 사용하며, 이는 입력으로 원본 텍스트 \( x \)와 편집 영역 획득 단계에서 얻어진 마스킹된 시퀀스 \( x \)와 \( x' \)를 받습니다. 이 입력을 받은 후, 판별자는 각 입력 시퀀스를 개별적으로 점수화하여 \( x_{score} \), \( x'_{score} \), \( x''_{score} \)를 생성합니다.
      • 그 후, \( x \)와 \( x' \) 사이, \( x \)와 \( x'' \) 사이의 점수 차이를 계산합니다. 이 차이가 미리 정의된 임계값을 초과하면, 이는 얻어진 편집 영역의 유효성을 나타내며, 즉 마스킹된 시퀀스가 유효함을 의미합니다. 유효한 마스킹된 시퀀스는 암묵적 마스킹 모듈로 넘어갑니다.
      • ### 암묵적 마스킹 모듈 (Implicit Masking Module)
      • 이전 연구들은 스타일 단어를 직접 삭제하거나 [MASK]로 명시적으로 대체하여 마스킹된 시퀀스를 얻은 후, 다음 단계에서 스타일 정보를 직접 채우는 방법을 사용했습니다. 그러나 스타일 단어는 내용 정보를 포함하고 있습니다. 예를 들어, 앞서 언급한 예제에서 "polite"와 "delicious"는 강한 스타일 정보를 포함하지만, 웨이터와 음식에 관련된 주요 내용도 암시합니다. 스타일 단어를 직접 삭제하거나 [MASK]로 대체하면 문장의 내용 정보가 손실되어 모델의 최종 성능에 영향을 미칠 수 있습니다. 따라서, 마스킹 벡터 \( v \)에서 1로 표시된 단어를 "[]" 구분자로 암묵적으로 표시합니다.
      • 앞서 언급한 예에서, \( v = [0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1] \)이며, 1로 표시된 해당 단어 "polite"와 "delicious"는 구분자 "[]"로 표시되어 마스킹된 시퀀스를 얻습니다. 즉, "The waiters in this restaurant are very [polite] and the food is [delicious]."이 됩니다. 최종적으로, "[polite]"와 "[delicious]"은 모델이 얻은 편집 영역을 나타냅니다.
    • ### 3. 스타일 정보 채우기 단계 (Style Information Filling Stage)
      • **목표**: 유효한 마스킹된 시퀀스를 기반으로 사용자가 지정한 타겟 스타일에 맞춰 최종 출력을 생성합니다.
      • **세부 과정**:
      • - 마스킹된 부분에 타겟 스타일에 맞는 단어를 채워 넣습니다.
      • - 최종 출력 문장을 생성합니다.
      • **예시**:
      • - 타겟 스타일: 부정적 (Negative)
      • - 마스킹된 문장: "The food is very [MASK]."
      • - 스타일 정보 채우기 후 문장: "The food is very terrible."
      • 입력 텍스트의 편집 영역을 받은 후, 다음 단계는 텍스트 스타일 변환을 위해 편집 가능한 영역 내에서 단어를 추가, 삭제, 수정, 대체하는 작업을 포함합니다. 이 논문에서는 스타일 정보를 채우기 위해 문맥적 내용을 고려한 글로벌 프롬프트 기반 접근 방식을 제안합니다.
      • ### 스타일 채우기 단계
      • 스타일 채우기 단계에서는 세 가지 입력이 필요합니다:
      • 1. 소스 입력 텍스트 \( x \)
      • 2. 프롬프트 기반으로 얻어진 마스킹된 시퀀스 \( x' \)
      • 3. 단어 빈도 기반으로 얻어진 마스킹된 시퀀스 \( x'' \)
      • 이 세 가지 입력은 개별적으로 프롬프트를 사용하여 LLM에 질의되어 여러 후보 출력을 생성합니다. 프롬프트 구성에서는 우리의 세 단계 프레임워크에 맞추고 암묵적 마스킹 모듈과 일치시키기 위해 프롬프트 템플릿에서 "[MASK]"를 특정 단어로 대체했습니다. 다음 세 가지 수작업으로 작성된 템플릿 형식을 설계했습니다:
      • **(a) 암묵적 마스킹을 기반으로 한 채우기**:
      • ```
      • "Here is a text, which is: {x(s)}, Here is a rewrite of the text, replace {w} makes the text more [t]: {".
      • ```
      • **(b) 명시적 마스킹을 기반으로 한 채우기**:
      • ```
      • "Here is a text, which is: {x(s)}, Here is a rewrite of the text, replace [MASK] makes the text more [t]: {".
      • ```
      • **(c) 기본형**:
      • ```
      • "Here is a text: {x(s)}, Here is a rewrite of the text, which is more [t]: {".
      • ```
      • 여기서 \( x(s) \)는 소스 스타일 \( s \)를 가진 입력 텍스트 \( x \)를 나타내며, \( t \)는 타겟 스타일을 나타내고, \( w \)는 입력 텍스트 \( x \)의 스타일 단어를 나타냅니다.
      • 다양한 후보 출력을 얻은 후, 우리는 정확성, 내용 보존, 유창성을 기준으로 이를 평가합니다. 마지막으로, 가장 높은 점수를 받은 후보 문장을 최종 출력으로 선택합니다.
    • ### 전체 과정 예시
      • **입력 문장**: "The food is very delicious."
      • - **1단계**: "The food is very [MASK]." (스타일 단어 "delicious" 식별 및 마스킹)
      • - **2단계**: "The food is very [MASK]." (마스킹된 시퀀스의 유효성 검증)
      • - **3단계**: "The food is very terrible." (타겟 스타일 "부정적"에 맞게 단어 채우기)
      • 이 방법을 통해 오류 누적 문제를 줄이고, 특정 영역의 텍스트만 수정하여 더 나은 제어 가능성과 안정성을 확보할 수 있습니다. 연구 결과, 이 방법은 여러 공개 데이터셋에서 최신 성능을 보여주었습니다【3†source】.
    • ### 연구 개요
      • 이 연구에서는 text-davinci-002와 text-davinci-003 모델을 사용했습니다. 이 모델들은 파인 튜닝 또는 프롬프트 튜닝을 거치지 않았음을 강조합니다.
    • ### 판별자 (Discriminator)
      • 판별자는 마스킹된 시퀀스 \( x \)와 \( x' \)의 유효성을 검증하도록 설계되었습니다. 유효성은 다음 조건을 만족할 때 결정됩니다:
      • 1. 점수 차이가 0.3-1 사이에 있을 때, 이는 스타일 정보가 올바르게 마스킹되었음을 나타냅니다.
      • 2. 판별자가 마스킹된 시퀀스에 중립 점수를 부여하여, 원래 입력의 긍정적 또는 부정적 감정에서 중립으로 전환되었음을 나타냅니다. 이는 스타일 정보가 올바르게 마스킹되었음을 의미합니다.
      • 3. 모델이 모든 단어를 마스킹하는 것을 방지하기 위해, 마스킹된 단어의 수는 입력 문장의 절반을 넘지 않도록 설정합니다.
      • 4. 성능과 계산 비용의 균형을 맞추고 모델이 반복 루프에 빠지는 것을 방지하기 위해 최대 반복 횟수는 5로 설정합니다.
    • ### 샘플 수 설정
      • 제로샷(zero-shot)과 퓨샷(few-shot) 설정을 포함합니다. 제로샷은 프롬프트 동안 참조 예제가 없는 것을 의미합니다. Reif et al. (2022)와 Suzgun et al. (2022)를 따르며, 퓨샷 설정에서 참조 예제의 수를 4로 설정합니다.

    Can Large Language Models Automatically Score Proficiency of Written Essays?

    • 이 논문은 대형 언어 모델(LLM)이 작성한 에세이를 자동으로 평가할 수 있는지를 탐구합니다. 특히, ChatGPT와 Llama라는 두 가지 LLM을 사용하여 이들이 에세이를 효과적으로 분석하고 점수화할 수 있는지를 실험했습니다.
    • ### 연구 질문
    • 논문은 다음과 같은 연구 질문을 다룹니다:
    • 1. 프롬프트 엔지니어링이 LLM의 자동 에세이 평가(AES) 성능에 미치는 영향은 무엇인가?
    • 2. 프롬프트에 따른 LLM의 AES 성능은 일관성이 있는가?
    • 3. ChatGPT와 Llama의 성능은 최신 기술(SOTA)과 비교했을 때 어느 정도인가?
    • ### 실험 방법
    • - **데이터셋**: Automated Student Assessment Prize (ASAP) 데이터셋을 사용하여 8개의 과제와 12,978개의 에세이를 평가했습니다.
    • - **프롬프트**: 4가지 다른 프롬프트를 점진적으로 설계하여 모든 에세이에 대해 응답을 수집했습니다.
    • - **평가 지표**: Quadratic Weighted Kappa (QWK) 점수를 사용하여 평가하였으며, ChatGPT와 Llama의 예측 점수와 피드백을 기록하여 연구 커뮤니티에 공개했습니다.
    • ### 주요 결과
    • 1. **프롬프트 엔지니어링의 효과**:
    •    - ChatGPT의 경우, 프롬프트 B, C, D가 프롬프트 A보다 성능이 우수했습니다. 특히, 프롬프트 B는 소스에 의존하는 과제에서 가장 좋은 성능을 보였습니다.
    •    - Llama는 ChatGPT와는 다른 성능 패턴을 보였으며, 설득 과제에서 프롬프트 A가 가장 좋은 성능을 보였습니다.
    • 2. **일관성**:
    •    - ChatGPT는 다양한 프롬프트와 과제에서 높은 일관성을 보였지만, Llama는 프롬프트에 따라 성능 차이가 컸습니다.
    • 3. **SOTA와의 비교**:
    •    - 두 모델 모두 SOTA 모델에 비해 예측 성능이 낮았지만, 에세이의 질을 향상시키는 피드백을 제공할 수 있었습니다. ChatGPT는 평균적으로 Llama보다 약간 더 좋은 성능을 보였습니다.
    • ### 결론
    • 이 연구는 ChatGPT와 Llama가 에세이를 평가할 수 있는 가능성을 보여주며, 프롬프트와 과제 유형에 따라 성능이 크게 달라짐을 강조합니다. LLM은 일관된 텍스트 생성 능력을 가지고 있지만, 좋은 에세이와 나쁜 에세이를 구별하는 데 어려움을 겪는다는 점을 지적합니다. 추가 연구를 통해 더 다양한 LLM을 실험하면 더 많은 통찰을 얻을 수 있을 것입니다 【6:1†source】【6:3†source】【6:5†source】. 
    • 제한 사항 우리의 연구에는 여러 가지 제한 사항이 있습니다. 
      • 첫째, 우리의 실험에서는 토큰의 최대 허용 한계에 맞추기 위해 프롬프트의 길이를 최대한 짧게 유지하는 데 주안점을 뒀습니다.
      • 둘째, 원샷 프롬프트에 대해 하나의 예제를 무작위로 선택했으며 다양한 예제로 실험하지 않았습니다. 몇 가지의 예시를 추가하는 것이 더 나은 결과를 얻을 수도 있습니다.
      • 셋째, OpenAI는 이전 요청의 과거 컨텍스트를 추적하지 않습니다. 따라서 우리는 각 API 요청에서 동일한 평가 지침을 보내야 했으며, 이는 추가 비용을 발생시켰습니다.
      • 마지막으로, 우리는 하나는 닫힌 소스이고 다른 하나는 오픈 소스인 LLM을 실험했습니다. 더 많은 LLM을 실험하면 위의 제한 사항 중 일부를 해결하고 추가적인 통찰을 얻을 수 있습니다.
    • 결론
      • 이 연구에서는 ChatGPT와 Llama라는 두 LLM이 에세이를 종합적으로 평가하고 특성별로 분석하고 성능을 평가하고 일관성을 연구했습니다. 우리는 서로 다른 작업 범주에 따라 다른 성능을 나타내는 4가지 프롬프트를 설계했습니다. 우리의 분석 결과, LLM의 성능이 프롬프트와 작업 유형에 매우 의존적임을 보여주었습니다. 특히 Llama는 작은 프롬프트의 변화에 매우 민감하며, ChatGPT는 더 견고하고 일관된 성능을 보입니다. 두 LLM 모두 다른 SOTA 모델에 미치지 못하는 성능을 보이지만, LLM은 고품질의 텍스트를 생성할 수 있는 높은 수준의 언어 지식을 보유하고 있다는 것은 부인할 수 없습니다. 그러나 텍스트 평가에서 그 한계가 있다는 점을 강조해야 합니다. 우리의 연구는 LLM이 주어진 에세이의 점수를 예측하는 데 아직 신뢰할 만한 것이 아니라는 점을 보여줍니다.
































    댓글