NL-158, Analogy Generation by Prompting Large Language Models: A Case Study of InstructGPT, INLG 2022
Motivation
Research Questions
Related Work
Problem Formulation
- ACG(유사 개념 생성) 또는 소스 없음(NO_SRC)
- 대상 개념이 주어지면 유추를 정당화하는 몇 가지 설명과 함께 유사한 소스 개념 또는 시나리오를 생성합니다.
- 예를 들어, "Explain Bohr’s atomic model using an analogy."
- AEG(유사 설명 생성) 또는 소스 포함(WSRC)
- 대상 개념과 유사한 소스 개념이 주어지면 두 개념이 어떻게 유사한지에 대한 설명을 생성합니다.
- 예를 들어, "Explain how Bohr’s atomic model is analogous to the solar system"
- 즉, 생성을 할때, 유사 개념 혹은 유사 설명을 생성하는 느낌?
Experiment Setup
- InstructGPT Model
- GPT-3 model further trained to follow human instructions (Ouyang et al., 2022)
- Three model sizes: Ada (350 M), Babbage (1.3B), Curie (6.7 B) , and Davinci (175 B)
- Datasets
- STD: Ten standard science analogies previously used in another task (Turney et al, 2008)
- 자연어 설명이 포함되어 있지 않습니다.
- SAQA: Science analogies from academic Q&A sites
- chegg.com과 같은 사이트에서 수동으로 다운로드한 과학 analogies
- 109개의 고등학교 과학 개념에 대한 148개의 영어 analogies
Feasibility Analysis
- RQ1: InstructGPT가 프롬프트를 통해 유추를 생성할 수 있는지 조사합니다.
- 간단한 제로샷 프롬프트 설계
- 예를 들어, "잘 알려진 비유를 사용하여 설명하십시오."
- 생성된 비유에서 소스 개념을 식별한 후 다음을 수동으로 평가했습니다.
- 생성된 소스 개념과 참조 STD의 정확한 일치
“Valid” or meaningful sources - 모든 프롬프트는 대부분의 경우 유효한 유추를 생성하여 의미 있는 유추를 생성하기 위한 InstructGPT의 약속을 암시합니다.
- 적은 수의 정확한 일치(유효한 소스의 많은 수 중)는 새로운(그리고 아마도 창의적인) 유추를 생성할 가능성을 보여줍니다.
Comparative Analysis of Prompts & Temperature
- RQ2: 프롬프트 및 온도의 변화가 생성된 유추에 어떻게 영향을 미치는지 연구
- 체계적으로 다양한 의역 프롬프트를 설계했습니다(예: 질문 대 명령문).
- 두 가지 온도 설정 연구: 낮음(온도 = 0), 높음(온도 = 0.85)
- BLEURT(Sellam et al., 2020)와 같은 측정을 사용하여 SAQA의 참조에 대해 생성된 유추를 자동으로 평가
- 질문이 진술과 상당히 다르고 점수가 낮다는 것을 발견했습니다. 동의어, 어순에 대한 민감도 감소
- 더 낮은 온도는 더 높은 온도에서 생성된 관련 없는 단어로 인해 평균적으로 더 높은 점수를 얻었습니다.
Model Size Comparison
Human Evaluation
Error Analysis
- No Analogy
- 생성된 텍스트는 대부분 대상 개념, 예 또는 동어에 대한 간단한 설명입니다.
- For example, “The b-lymphocytes are similar to the white blood cells.”
- Irrelevant to target
- 대상과 관련된 관련 정보가 거의 없음
- For example, computer “mouse” misidentified as a rodent
- Incorrect source or explanation
- 소스 개념에 대한 정확하지 않거나 누락된 세부 사항, 또는 비유가 완전히 잘못되거나 약하게 만드는 불충분한 설명
- For example, “A molecule of DNA is like a drop of water. It has a specific shape and size, and it can carry the genetic instructions for making a particular organism.”
Conclusion
- InstructGPT를 유도하여 유추를 생성하는 새로운 작업 제안 및 연구
- 정확한 프롬프트가 사용될 때 InstructGPT가 이 작업에 효과적임을 보여줌으로써 유추를 생성하는 유망한 새로운 방법을 제공합니다.
- InstructGPT 모델은 프롬프트(예: 질문 대 명령형 스타일), 온도 및 철자 오류의 변화에 민감합니다.
- 생성된 유추의 품질은 모델 크기에 따라 크게 증가하여 유사한 소스 개념 생성 작업에서 인간 수준의 성능에 도달합니다.
- 특히 주어진 대상과 소스 개념 간의 유추적 유사성을 설명하는 어려운 과제에서 여전히 개선의 여지가 많습니다.
- 향후 작업에는 데이터 세트에서 미세 조정된 지도 모델을 포함하여 이 작업에 대한 더 나은 모델 개발이 포함됩니다. 다른 도메인 및 더 큰 데이터 세트에 대한 결과의 일반화 가능성 확인
Reference
댓글
댓글 쓰기