NL-158, Analogy Generation by Prompting Large Language Models: A Case Study of InstructGPT, INLG 2022

Motivation

  • 유추는 인간의 인지에서 중요한 역할을 합니다
  • 이러한 유추(analogies)를 자동으로 생성하는 것은 개념 간의 관계적 유사성을 식별해야 하는 경우가 많기 때문에 새롭고 도전적인 작업입니다.

Research Questions

  • 다양한 NLP 작업에서 사전 훈련된 대규모 언어 모델을 유도한 최근의 성공에서 영감을 얻었습니다.
    • 채워지지 않은 슬롯이 있는 텍스트 프롬프트를 사용하고 언어 모델을 활용하여 해당 슬롯을 채우고 출력을 얻습니다.
  • RQ1: InstructGPT(인간의 지시를 따르도록 정렬된 GPT-3)와 같은 최신 PLM이 의미 있는 유추를 생성하는 데 얼마나 효과적입니까?
  • RQ2: 생성된 유추는 프롬프트 디자인, 온도 하이퍼파라미터 및 철자 오류에 얼마나 민감합니까?
  • RQ3: 모델 크기가 생성된 유추의 품질에 어떤 영향을 미칩니까?

Related Work

  • 대규모 인지 모델링을 처리하도록 중소기업 확장(Forbus et al., 2017)
    • 구조 매핑 엔진: 소스 및 대상 개념의 구조적 표현과 해당 속성 간의 매핑 또는 연결을 찾는 기호 모델
    • 작업 설정과 달리 구조화된 개념 표현이 필요합니다.
  • BERT는 NLP에 대한 것입니다. 
  • Alex Net은 CV에 대한 것입니다: 
  • 사전 훈련된 언어 모델이 유추를 식별할 수 있습니까? (우시오 외, 2021)
    • 생성하려는 유추와 달리 비례 유추(예: 타조:새::사자:동물)를 생성하도록 사전 훈련된 언어 모델에 프롬프트를 표시합니다.

Problem Formulation

  • ACG(유사 개념 생성) 또는 소스 없음(NO_SRC)
    • 대상 개념이 주어지면 유추를 정당화하는 몇 가지 설명과 함께 유사한 소스 개념 또는 시나리오를 생성합니다.
    • 예를 들어, "Explain Bohr’s atomic model using an analogy."
  • AEG(유사 설명 생성) 또는 소스 포함(WSRC)
    • 대상 개념과 유사한 소스 개념이 주어지면 두 개념이 어떻게 유사한지에 대한 설명을 생성합니다.
    • 예를 들어, "Explain how Bohr’s atomic model is analogous to the solar system"
  • 즉, 생성을 할때, 유사 개념 혹은 유사 설명을 생성하는 느낌?

Experiment Setup

  • InstructGPT Model 
    • GPT-3 model further trained to follow human instructions (Ouyang et al., 2022) 
    • Three model sizes: Ada (350 M), Babbage (1.3B), Curie (6.7 B) , and Davinci (175 B)
  • Datasets
    • STD: Ten standard science analogies previously used in another task (Turney et al, 2008) 
      • 자연어 설명이 포함되어 있지 않습니다.
    • SAQA: Science analogies from academic Q&A sites 
      • chegg.com과 같은 사이트에서 수동으로 다운로드한 과학 analogies
      • 109개의 고등학교 과학 개념에 대한 148개의 영어 analogies

Feasibility Analysis

  • RQ1: InstructGPT가 프롬프트를 통해 유추를 생성할 수 있는지 조사합니다.
  • 간단한 제로샷 프롬프트 설계
    • 예를 들어, "잘 알려진 비유를 사용하여 설명하십시오."
  • 생성된 비유에서 소스 개념을 식별한 후 다음을 수동으로 평가했습니다.
    • 생성된 소스 개념과 참조 STD의 정확한 일치
    • “Valid” or meaningful sources 
  • 모든 프롬프트는 대부분의 경우 유효한 유추를 생성하여 의미 있는 유추를 생성하기 위한 InstructGPT의 약속을 암시합니다.
  • 적은 수의 정확한 일치(유효한 소스의 많은 수 중)는 새로운(그리고 아마도 창의적인) 유추를 생성할 가능성을 보여줍니다.

Comparative Analysis of Prompts & Temperature

  • RQ2: 프롬프트 및 온도의 변화가 생성된 유추에 어떻게 영향을 미치는지 연구
    • 체계적으로 다양한 의역 프롬프트를 설계했습니다(예: 질문 대 명령문).
    • 두 가지 온도 설정 연구: 낮음(온도 = 0), 높음(온도 = 0.85)
    • BLEURT(Sellam et al., 2020)와 같은 측정을 사용하여 SAQA의 참조에 대해 생성된 유추를 자동으로 평가
    • 질문이 진술과 상당히 다르고 점수가 낮다는 것을 발견했습니다. 동의어, 어순에 대한 민감도 감소
    • 더 낮은 온도는 더 높은 온도에서 생성된 관련 없는 단어로 인해 평균적으로 더 높은 점수를 얻었습니다.

Model Size Comparison

  • RQ3: 모델 크기가 생성된 유추의 품질에 어떤 영향을 미칩니까?
  • WSRC 및 NO_SRC 설정 모두에서 모델 크기에 따라 성능이 크게 향상됩니다.
    • 더 큰 모델은 주어진 대상에 대해 유추와 같은 텍스트를 생성하는 데 더 좋습니다.
  • WSRC의 성능이 NO_SRC보다 높음
    • 모든 모델에는 프롬프트에 제공된 소스를 통합할 수 있는 능력이 있습니다.

Human Evaluation

  • 보다 포괄적인 분석을 위해 Mturk 연구를 수행하여 비유가 의미가 있는지 여부를 설명합니다. 각각 3명의 주석자가 ~1.4k 총 유추 주석을 달았습니다.
  • NO_SRC 설정에서 가장 큰 모델은 참조 데이터 세트에서 사람이 작성한 유추와 비슷한 성능을 가집니다.
  • WSRC 설정에서 InstructGPT의 성능은 인간의 성능보다 훨씬 낮습니다.
    • WSRC는 특히 훈련 중에 볼 수 없는 유추를 설명하기 위해 모델에서 더 유추한 추론을 요구할 수 있습니다.

Error Analysis

  • No Analogy 
    • 생성된 텍스트는 대부분 대상 개념, 예 또는 동어에 대한 간단한 설명입니다.
    • For example, “The b-lymphocytes are similar to the white blood cells.” 
  • Irrelevant to target 
    • 대상과 관련된 관련 정보가 거의 없음
    • For example, computer “mouse” misidentified as a rodent 
  • Incorrect source or explanation 
    • 소스 개념에 대한 정확하지 않거나 누락된 세부 사항, 또는 비유가 완전히 잘못되거나 약하게 만드는 불충분한 설명
    • For example, “A molecule of DNA is like a drop of water. It has a specific shape and size, and it can carry the genetic instructions for making a particular organism.” 

Conclusion

  • InstructGPT를 유도하여 유추를 생성하는 새로운 작업 제안 및 연구
  • 정확한 프롬프트가 사용될 때 InstructGPT가 이 작업에 효과적임을 보여줌으로써 유추를 생성하는 유망한 새로운 방법을 제공합니다.
  • InstructGPT 모델은 프롬프트(예: 질문 대 명령형 스타일), 온도 및 철자 오류의 변화에 민감합니다.
  • 생성된 유추의 품질은 모델 크기에 따라 크게 증가하여 유사한 소스 개념 생성 작업에서 인간 수준의 성능에 도달합니다.
  • 특히 주어진 대상과 소스 개념 간의 유추적 유사성을 설명하는 어려운 과제에서 여전히 개선의 여지가 많습니다.
  • 향후 작업에는 데이터 세트에서 미세 조정된 지도 모델을 포함하여 이 작업에 대한 더 나은 모델 개발이 포함됩니다. 다른 도메인 및 더 큰 데이터 세트에 대한 결과의 일반화 가능성 확인

Reference

댓글