◼ Comment

빠르게 번역기로 살펴보았는데, 나쁘지 않는 논문 같다
LLM이 좋은 zero-shot task인건 알겠는데, 평가자로 활용해도 되는가?에 대한 질문을 해결하는 논문이다.
결론으로는 LLM으로 평가해도 사람이 평가한 것과 유사하단 결과가 나온다.
2가지 테스크에 대해 실험을 한다.
1. open-ended story generation

스토리를 생성하는 모델 GPT2을 학습하여 테스트세트에 대해 스토리 생성을 시킨다.
사람이 생성한 스토리와 gpt2-generated 와 비교한다.
사전연구로 AMT로 고용한 사람들은 이를 구분하지 못한고 영어교사는 human-written이 더 좋다고 판단하는 연구가 있었다.
따라서 이 테스크를 설정했고 LLM은 human-written이 더 좋다고 평가한다는 것이다.
평가항목은 4가지다.
1. Grammaticality: 스토리 조각의 텍스트가 문법적으로 얼마나 올바른가?
2. Cohesiveness: 스토리 조각의 문장이 서로 얼마나 잘 맞나요?
3. Likability: 스토리 조각이 얼마나 재미있나요?
4. Relevance: 이제 스토리 조각이 작성된 근거가 되는 프롬프트를 읽어 보세요.

Prompt: [PROMPT].
스토리 조각이 Prompt와 얼마나 관련이 있나요?

T0, text-curie-001은 무엇이 더 좋은지 제대로 평가를 못한다.
InsturctGPT(text-davinci-003)과 ChatGPT는 제대로 평가한다.
이를 판단하는 MEAN_STD, IAA%는 본문 참고
Kendall's tau로 봤을 때는

1. 사람1평가와 chatgpt평가 비교
2. 사람1평가 vs 사람2평가 비교
이 둘이 꽤 유사하다는 것을 볼 수가 있다.

2. Adversarial Attack

2번째 테스크는, 기존의 문장을 동의어 치환등으로 변형시킨다.
변형문장(적대적문장)은 bert-base-uncased 텍스트 분류기로 생성한 것 같다.
아무튼 그 다음 2가지 평가를 한다.
1. 적대적문장의 유창성
2. 기존문장vs적대적문장의 의미가 같은지
LLM이 봤을 때 유창성은 낮게나오고, 의미는 꽤 다르게 판단한다는 것이다.
이는 사람과 비슷한 결과를 보여준다는 것

장점

LLM 평가는 재현성이 높다
이전 샘플에 대해 영향을 받지 않는다 (샘플끼리 독립)
가격이 싸고 빠르다
해로운 글에 대해 인간이 평가할 때 느끼는 불편함 없앨 수 있다

한계

LLM으로 사실기반 평가를 하기엔 적합하지 않다
특정응답에 편향될 가능성 무시할 수 없다
기본 윤리에 위배되는 유해하고 편향된 반응 생성 가능
--> 하지만 인간도 비슷한 문제 있음

0 Abstract

머신러닝 모델에 의해 생성되거나 사람이 작성한 텍스트의 품질을 평가하기 위해서는 사람의 평가가 필수적이며 불가피합니다.
그러나 사람의 평가는 재현하기가 매우 어렵고 그 품질이 불안정하여 서로 다른 자연어 처리(NLP) 모델과 알고리즘 간의 공정한 비교를 방해하는 것으로 악명이 높습니다.
최근 대규모 언어 모델(LLM)은 작업 지침만 제공되었을 때 보이지 않는 작업에서 뛰어난 성능을 발휘하는 것으로 나타났습니다.
이 논문에서는 이러한 LLM의 능력이 사람의 평가를 대체할 수 있는지 살펴봅니다.
우리는 인간 평가에 사용되는 것과 똑같은 지시 사항, 평가할 샘플, 질문을 LLM에게 제시한 다음, 그 질문에 대한 응답을 생성하도록 요청하며, 이를 LLM evaluation라고 부릅니다.
두 가지 NLP 작업에서 텍스트를 평가하기 위해 사람 평가와 LLM 평가를 사용합니다:

open-ended story generation and adversarial attacks.

우리는 LLM 평가의 결과가 전문가의 인간 평가로 얻은 결과와 일치한다는 것을 보여줍니다:

인간 전문가가 더 높게 평가한 텍스트는 LLM에서도 더 높게 평가됩니다.

또한 작업 지침의 형식과 답을 생성하는 데 사용되는 샘플링 알고리즘이 달라져도 LLM 평가 결과가 안정적이라는 사실도 확인했습니다.
이 연구는 텍스트의 품질을 평가하는 데 LLM을 사용할 수 있는 잠재력을 보여주고, LLM 평가의 한계와 윤리적 고려사항에 대해 논의한 최초의 연구입니다.

1 Introduction

사람의 평가는 NLP 모델이나 알고리즘의 성능을 이해하는 데 중요한 방법입니다.
자동 평가 메트릭으로 평가하기 어려운 텍스트의 특정 측면이 있기 때문에 연구자들은 NLP 모델의 출력 품질을 평가하기 위해 사람의 평가에 의존합니다.
인간의 평가는 NLP에서 널리 사용되고 필수 불가결하지만 불안정한 것으로 악명이 높습니다.
카핀스카(2021)는 인간 평가에서 인력의 질이 평가 결과에 해로운 영향을 미칠 수 있어 서로 다른 시스템 간의 성능 비교가 불가능하다는 것을 보여주었습니다.
동일한 인적 평가자를 채용하여 동일한 평가를 재실시하는 것이 어렵기 때문에 재현성은 인적 평가의 또 다른 문제입니다.
동일한 작업자를 채용하더라도 이전에 해당 작업을 수행한 적이 있는 작업자는 다음번에는 다른 평가 결과를 도출할 가능성이 높습니다.
사람에 의한 평가는 NLP 시스템을 더 잘 평가하는 데 사용되며 자동 평가 지표에 비해 몇 가지 장점이 있지만, 사람에 의한 평가의 단점으로 인해 NLP 시스템을 안정적으로 평가하기는 다소 어렵습니다.
즉 사람의 평가가 유용하긴 하지만, 위처럼 다양한 단점이 있다.. LLM evaluation은 이것을 해결할 수 있다!
이러한 단점을 해결하기 위해 대규모 언어 모델(LLM)을 활용합니다.
LLM은 self-supervised learning을 통해 인간의 언어를 모델링하도록 훈련된 대규모 모델로, 보이지 않는 작업에 대한 성능을 개선하고 자연어 지시를 더 잘 따르도록 특수 훈련 절차를 추가로 사용합니다.
task instructions가 주어졌을 때 작업을 수행할 수 있는 능력은 이러한 LLM이 인간 평가에서 인간이 하는 일을 수행할 수 있는지에 대한 의문을 갖게 합니다.
이 질문에 답하기 위해 인간 평가에 사용된 것과 동일한 명령어, 샘플, 질문을 LLM에 입력한 다음, LLM이 생성한 시퀀스를 질문에 대한 LLM의 답변으로 삼습니다.
이 프로세스는 그림 1에 표시되어 있으며, 이 프로세스를 LLM evaluation라고 부릅니다.
LLM 평가가 의미 있는 결과를 도출하는지 테스트하기 위해 두 가지 다른 NLP 작업에 대해 LLM 평가를 수행합니다:

evaluating the quality of stories in open-ended story generation
the quality of sentences generated by adversarial attacks.

We summarize our findings and contribution as follows:

LLM 평가가 전문가의 인적 평가와 유사한 결과를 도출한다는 것을 보여줌으로써 LLM 평가의 효과를 검증합니다(§3.3 및 §4.3). 이 논문은 인적 평가의 대안으로 LLM을 사용할 것을 제안하고 그 효과를 입증한 최초의 논문입니다.
우리는 LLM 평가 결과가 다른 작업 지침과 답을 생성하는 데 사용되는 샘플링 알고리즘의 하이퍼파라미터로 인해 약간만 달라진다는 것을 보여줍니다. (§3.3.2 및 §3.3.3)
저희는 LLM 평가 사용의 장단점을 신중하게 논의하고 LLM 평가의 윤리적 고려사항에 대해 논의합니다. (§5)

2 LLM Evaluation

2.1 Large Language Models (LLMs)

대규모 언어 모델이란 일반적으로 수십억 개에 달하는 대규모 매개변수 크기를 가진 언어 모델로, GPT3, T5, BLOOM 등 방대한 양의 자연어 말뭉치에 대해 사전 학습된 언어 모델입니다.
이러한 LLM은 작업 지시만 주어졌을 때 보이지 않는 작업에서도 탁월한 성능을 발휘하는데, 이러한 능력을 제로 샷 인컨텍스트 학습이라고 합니다.
제로 샷 인컨텍스트 학습 성능을 더욱 향상시키기 위해 사전 학습 후 특수 학습 기법이 이러한 LLM에 적용되었습니다.
예를 들어, T0와 FLAN은 여러 가지 작업을 혼합하여 미세 조정되므로 GPT-3에 비해 더 나은 제로 샷 성능을 얻을 수 있습니다.
InstructGPT는 사람의 피드백을 통한 강화 학습(RLHF)을 사용하여 GPT-3에서 미세 조정되었으며, 지침을 더 잘 따르는 것으로 나타났습니다.
ChatGPT는 RLHF를 사용하여 대화 데이터 세트로 InstructGPT를 미세 조정하여 사용자와 대화 방식으로 상호 작용할 수 있습니다.
ChatGPT는 사용자가 묻는 질문에 답변하고 답변에 대한 포괄적인 설명을 제공할 수 있습니다.
작업 지시를 따르고 피드백을 제공하는 LLM의 능력을 고려할 때, 우리는 LLM이 인간 평가의 대안으로 사용될 수 있는지, 그리고 NLP 연구자들이 텍스트의 품질을 평가하는 데 도움을 줄 수 있는지 질문합니다.

2.2 LLM Evaluation

자연어 처리 시스템에서 생성되거나 사람이 LLM을 사용하여 작성한 텍스트의 품질을 평가하기 위해 작업 지침, 평가할 샘플, 질문을 LLM에게 제시합니다.
이 질문은 5점 리커트 척도를 사용하여 샘플의 품질을 평가하도록 LLM에게 요청합니다.
입력이 주어지면 LLM은 몇 가지 출력 문장을 생성하여 질문에 답합니다.

출력 문장을 파싱하여 LLM이 평가한 점수를 얻습니다.
이 프로세스를 LLM 평가라고 부르며, 이 절차는 그림 1의 하단에 나와 있습니다.

작업마다 서로 다른 작업 지침 세트를 사용하며, 각 작업은 샘플의 품질을 평가하기 위해 서로 다른 질문을 사용합니다.

본 백서에서 LLM 평가에 사용된 지침과 질문은 LLM에 맞게 조정된 것이 아니라 이전 작업에서 인간 평가에 사용된 지침을 따릅니다.
즉 이런것을 실험하기 위해, 따로 평가지시를 만든 것은 아니다. 사람한테 평가맡길때와 똑같은 가이드라인을 줌

LLM 평가의 결과를 비교하고 그 효과를 보여주기 위해 영어 교사가 실시한 human evaluation와 LLM 평가 결과를 비교합니다.
공정하고 의미 있는 비교를 위해 인적 평가의 지시 사항, 샘플 및 질문은 LLM 평가와 유사한 형식으로 구성되었습니다.
LLM 평가와 human evaluation 의 주요 차이점은 그림 1의 오른쪽 상단에 표시된 것처럼 인적 평가에서는 평가자가 미리 정의된 옵션 세트(1~5 리커트 척도 점수)에서 답을 선택하여 질문에 답한다는 점입니다.
대신 LLM 평가에서는 LLM이 자유롭게 문장을 생성하도록 하고 부록 D.2.1에 자세히 설명된 몇 가지 간단한 규칙을 사용하여 생성된 문장에서 점수를 추출합니다.

3 Example Task 1: Open-Ended Story Generation

We first use open-ended story generation to demonstrate the usefulness of LLM evaluation.

3.1 Task Introduction

Open-ended story generation은 주어진 프롬프트에 따라 짧은 스토리를 생성하는 작업입니다.

하위 레딧 WritingPrompts에서 수집한 짧은 프롬프트와 사람이 직접 작성한 스토리 쌍으로 구성된 WritingPrompts 데이터 세트를 사용합니다.
WritingPrompts에서는 사용자에게 짧은 프롬프트가 주어지고, 사용자는 이 짧은 프롬프트에 따라 스토리를 작성해야 합니다.

이 실험에서는 사람이 생성한 스토리와 스토리 생성 모델에 의해 생성된 스토리를 평가하기 위해 LLM 평가와 사람 평가를 사용합니다.

open-ended story generation을 예로 선택한 이유는 카핀스카가 Amazon Mechanical Turk의 작업자들이 GPT-2가 생성한 스토리와 사람이 작성한 스토리를 구분하지 못하는 반면, 영어 교사들은 GPT-2가 생성한 스토리보다 사람이 작성한 스토리를 더 선호한다는 것을 보여줬기 때문입니다.
즉 영어 교사들은 human-written 스토리 > GPT2 생성 스토리
AMT에서의 일반사람은 human-written 스토리와 GPT2 생성 스토리를 구분 못함
만약 LLM이 human-written 스토리 > GPT2 생성 스토리로 판단한다면, 의미가 있는 것!
우리는 LLM이 사람이 작성한 스토리를 GPT-2로 생성된 스토리보다 더 높게 평가할 수 있는지 알아보고자 합니다.

이전 작업에 이어, 스토리 생성 모델은 WritingPrompts 훈련 데이터세트에서 미세 조정된 GPT-2 중간 모델입니다.
모델을 학습시킨 후 WritingPrompts의 테스트 세트에서 200개의 프롬프트를 무작위로 선택하고, 미세 조정된 GPT-2가 p = 0.9의 (Holtzman 2020)을 사용하여 해당 프롬프트를 기반으로 스토리를 생성하도록 합니다.

사람이 작성한 스토리를 비교하기 위해 동일한 200개의 프롬프트를 기반으로 작성된 200개의 스토리를 사용합니다.

human-written 스토리와 GPT-2로 생성된 스토리를 후처리한 다음 LLM 평가와 사람 평가에 사용합니다.
미세 조정 및 데이터 처리에 대한 자세한 내용은 부록 B에서 확인할 수 있습니다.

3.2 LLM Evaluation and Human Evaluation

우리는 LLM과 인간 평가자에게 그림 1과 같은 형식의 간단한 설명과 평가할 스토리를 제시합니다.
Karpinska (2021)에 따라 네 가지 속성에 따라 스토리를 평가합니다.
네 가지 attributes 과 그에 해당하는 질문은 다음과 같습니다:

1. Grammaticality: 스토리 조각의 텍스트가 문법적으로 얼마나 올바른가?
2. Cohesiveness: 스토리 조각의 문장이 서로 얼마나 잘 맞나요?
3. Likability: 스토리 조각이 얼마나 재미있나요?
4. Relevance: 이제 스토리 조각이 작성된 근거가 되는 프롬프트를 읽어 보세요.

Prompt: [PROMPT].
스토리 조각이 Prompt와 얼마나 관련이 있나요?

여기서 [PROMPT]는 스토리의 근거가 되는 프롬프트로 채워집니다.
각 속성은 5점 Likert scale로 평가되며, 각 질문의 마지막에는 다음과 같은 설명이 추가됩니다: "(1-5점 척도, 1이 가장 낮음)".
사람 평가에 사용되는 인터페이스와 LLM 평가의 입력 형식은 부록 C.2 및 D.2.2에 나와 있습니다.

사람 평가 인터페이스 (C.2)

개방형 스토리 생성 Google 양식을 사용하여 교사들의 응답을 수집합니다. 각 양식에는 100개의 스토리가 포함되어 있으며, 각 스토리는 Google 양식의 한 페이지에 있습니다. 한 페이지의 인터페이스는 그림 2와 그림 3에 표시되어 있으며, 두 그림은 Google 양식의 동일한 페이지에서 가져온 것으로 전체 인터페이스를 스크린샷으로 찍으면 해상도가 낮아지기 때문에 분할하여 표시합니다.

T0 및 두 개의 InstructGPT 모델에 대해서는 다음과 같은 쿼리를 사용하여 네 가지 속성을 개별적으로 쿼리합니다: (D.2.2)

Grammaticality

스토리 조각을 평가하세요 이 과제의 목표는 스토리 조각을 평가하는 것입니다.
참고: 시간을 내어 스토리 조각을 충분히 읽고 이해하시기 바랍니다. 명백하게 스팸을 보내는 작업자의 제출은 거부됩니다.
스토리 조각: [STORY] (스토리 조각의 끝)
스토리 조각의 텍스트가 문법적으로 얼마나 정확합니까? (1~5점 척도, 1이 가장 낮음)

Cohesiveness

스토리 조각을 평가하세요 이 과제의 목표는 스토리 조각을 평가하는 것입니다.
참고: 시간을 내어 스토리 조각을 충분히 읽고 이해하시기 바랍니다. 명백하게 스팸을 보내는 작업자의 제출은 거부됩니다.
스토리 조각: [STORY] (스토리 조각의 끝)
스토리 조각의 문장이 얼마나 잘 어울리나요? (1~5점 척도, 1이 가장 낮음)

Likability

스토리 조각을 평가하세요 이 과제의 목표는 스토리 조각을 평가하는 것입니다.
참고: 시간을 내어 스토리 조각을 충분히 읽고 이해하시기 바랍니다. 명백하게 스팸을 보내는 작업자의 제출은 거부됩니다. 스토리 조각: [STORY] (스토리 조각 끝)
이 스토리 조각이 얼마나 재미있나요? (1~5점 척도, 1이 가장 낮음)

Relevance

스토리 조각을 평가하세요 이 과제의 목표는 스토리 조각을 평가하는 것입니다.
참고: 시간을 내어 스토리 조각을 충분히 읽고 이해하시기 바랍니다. 명백하게 스팸을 보내는 작업자의 제출은 거부됩니다.
스토리 조각: [STORY] (스토리 조각 끝)
이제 스토리 조각이 작성된 근거가 된 프롬프트를 읽으세요.
프롬프트: [프롬프트] (프롬프트 끝)
스토리 조각이 프롬프트와 얼마나 관련이 있습니까? (1~5점 척도, 1이 가장 낮음)

The [STORY] and [PROMPT] are to be filled in with the story and the prompt. We show the newlines for better readability.
When we query the models, we use the token \n to represent the new line.
ChatGPT를 쿼리할 때는 하나의 대화에서 동일한 이야기의 네 가지 속성을 쿼리하는데, 이는 Google 설문지의 동일한 페이지에서 교사에게 동일한 이야기에 대한 평가를 요청하는 것과 유사합니다.
T0, InstructGPT한테는, 각각의 평가 항목에 대해서, 입력형태를 위처럼 넣어서 평가한다.
ChatGPT한테는, 사람의 평가와 유사하게, 입력을 한번만 보여주고, 각각의 항목에 대해서 모두 평가해달라고 한다. ChatGPT가 뛰어나서 그렇게 하는건가?
위에 표시된 것과 동일한 쿼리를 사용하여 ChatGPT를 쿼리하며 쿼리 순서는 위에 표시된 순서와 동일합니다.

LLM 평가에 사용되는 LLM에는 T0, text-curie-001, text-davinci-003 및 ChatGPT가 있습니다.
text-curie-001과 text-davinci-003은 두 가지 InstructGPT 모델이며, 후자가 더 강력한 모델이므로 이 두 모델을 참조하기 위해 InstructGPT를 사용합니다.
OpenAI에서 제공하는 공식 API를 사용하여 InstructGPT를 쿼리합니다.

p = 0.9의 핵 샘플링을 사용하여 T0 및 InstructGPT에서 답을 생성합니다.
모델에 동일한 스토리를 세 번 평가하도록 요청하여 결과를 자극하기 위해 LLM에서 세 개의 답변을 샘플링합니다.
InstructGPT는 같은 테스트 인스턴스에 대해 3번 결과를 뽑아서, 이를 평균낸건가?

OpenAI에서 최근 출시한 사용자 인터페이스를 사용하여 ChatGPT를 쿼리합니다.

InstructGPT와 달리 ChatGPT에서는 응답을 생성하는 데 사용되는 매개변수를 제어할 수 없습니다.
ChatGPT는 사용자당 최대 쿼리 횟수를 제한하기 때문에 각 질문에 대해 하나의 응답만 샘플링합니다.
ChatGPT는 여러번 질의하고 답변 받기 코스트 때문에, 한번만 결과를 받는 식으로 한거 같음

인간 평가의 경우, Karpinska (2021)가 이미 AMT를 사용하여 얻은 결과가 매우 의심스럽다는 것을 보여 주었기 때문에 인간 평가에 일반적으로 사용되는 AMT를 사용하지 않습니다.

선행 연구의 추천에 따라 온라인 프리랜서 플랫폼인 UpWork를 통해 3명의 공인 영어 교사를 고용했습니다.
교사들은 학생들의 에세이를 평가하는 데 익숙하기 때문에 우리 과제의 전문 평가자가 될 수 있습니다.
인적 평가자 모집에 대한 자세한 내용은 부록 C.1에 나와 있습니다.
사람 평가를 제대로 하기 위해서, AMT가 아닌 공인 영어교사를 채용했다는 것!

각 LLM과 영어 교사는 사람이 직접 작성한 200개의 스토리와 GPT-2로 생성된 200개의 스토리를 평가합니다.

3.3 Experiment Results

개방형 스토리 생성에 대한 LLM 평가와 사람 평가 결과는 표 1에 나와 있습니다.
LLM 평가와 사람 평가에서 얻은 Likert 점수의 평균과 표준 편차를 보고하고, 두 가지 메트릭을 사용하여 inter-annotator agreement(IAA, 평가자들간의 일치도)를 표시합니다:

(1) the Krippendorff’s α,
(2) the percentage of the stories where three evaluators give the exact same rating.

The main observations from Table 1 are discussed as follows.

사람이 작성한 스토리와 GPT-2로 생성된 스토리에 대한 LLM 평가 및 사람 평가 결과입니다. 평가된 각 속성에 대해 평균 리커트 척도와 표준 편차를 보고합니다. 또한 Krippendorff의 α를 사용하여 세 명의 주석가 간 일치도(IAA)를 보고합니다. IAA 열의 첨자(%)는 세 명의 주석가 모두가 평가에 정확히 일치하는 스토리의 비율을 나타내는 데 사용됩니다.
즉 하나의 테스트샘플에 대해 3명의 사람 or 3번의 모델인퍼런스로 3개의 점수 평가를 얻는다.
이 3개의 점수가 완전히 일치하면 IAA_%가 올라간다. (ChatGPT는 한번만 하기 때문에 이 점수가 없는 것)
Krippendorff's alpha값은 IAA(큰 숫자)이다.

https://velog.io/@sujeongim/%EB%8D%B0%EC%9D%B4%ED%84%B0-%EC%A0%9C%EC%9E%91-%EB%8D%B0%EC%9D%B4%ED%84%B0-%ED%92%88%EC%A7%88-%ED%8F%89%EA%B0%80-%EB%B0%A9%EB%B2%95-IAA-%ED%8F%89%EA%B0%80
위 링크보면 어떤 느낌인지 감잡을 수 있음. 0.2~0.4이면 어느정도 일치하는 느낌. 0.2이하이면 일치한다고 보기 어려울듯

모든 테스트샘플에 대한 평균점수과 표준편차가 MEAN_STD을 의미하는 것 같음

Expert human evaluators prefer human-written stories:

사람의 평가 결과는 LLM 평가의 일종의 근거 자료 역할을 합니다.
네 가지 속성 모두에서 교사는 사람이 직접 작성한 스토리를 GPT-2로 생성한 스토리보다 높게 평가했습니다.
이는 전문가들이 모델 생성 스토리와 사람이 직접 작성한 스토리의 품질 차이를 구분할 수 있다는 것을 나타냅니다.
또한 IAA에 따르면 전문가들 간의 동의도는 GPT-2로 생성된 텍스트와 호감도에서 더 낮은 것으로 나타났습니다.
이는 전문가들이 모델 생성 텍스트와 주관적 속성(호감도)에 대해 덜 동의하는 경향이 있음을 보여주며, 이는 카핀스카의 결과와 일치합니다.
즉 전문가는 사람이 생성한 스토리를 더 좋게 평가하고, 그에 대한 평가 점수 동의율도 높다!

T0 and text-curie-001 do not show clear preference toward human-written stories:

T0의 경우, 문법, 호감도, 관련성에서 사람이 작성한 스토리가 GPT-2로 생성된 스토리보다 더 높은 평가를 받은 것을 알 수 있습니다.
그러나 사람이 작성한 스토리와 모델이 생성한 스토리의 평가 차이는 문법성 및 관련성에서 통계적으로 유의미하지 않으며, Welch’s t-test에서 얻은 p값은 0.05보다 훨씬 큽니다.
text-curie-001의 결과는 T0과 유사합니다.
text-curie-001은 사람이 작성한 스토리를 모델이 생성한 스토리보다 높게 평가하지 않습니다.
또한 T0의 경우, 세 개의 서로 다른 샘플 답변 간의 정확한 일치율에 대한 IAA가 전반적으로 매우 낮다는 것을 알 수 있습니다.
이는 동일한 샘플이 주어졌을 때 T0가 세 가지 샘플 답변에 대해 다른 등급을 부여할 가능성이 높다는 것을 나타냅니다.
이 결과는 T0가 특정 등급에 높은 확률을 할당하지 않으므로 서로 다른 점수가 모두 샘플링될 가능성이 높다는 것을 의미합니다.
이는 LLM이 zero-shot in-context learning을 더 잘 수행하도록 특별히 미세 조정되고 사람의 지시를 더 잘 따르도록 훈련되었다고 해도 인간 전문가처럼 개방형 스토리 생성을 평가할 수 있는 능력을 갖추지는 못한다는 것을 보여줍니다.
T0와 text-curie-001은 인간처럼 평가하기 어려워 보인다.

text-davinci-003 shows clear preference toward human-written stories just like English teachers:

text-davinci-003은 네 가지 속성 모두에서 사람이 작성한 스토리를 모델 생성 스토리보다 훨씬 높게 평가했으며, 이는 인간 전문가들이 도출한 결과와 일치합니다.
Welch’s t-test에 따르면, 사람이 작성한 스토리에 대한 높은 평가는 모두 통계적으로 유의미하다는 것을 알 수 있습니다.
선행 연구에서 AMT로 채용된 작업자는 사람이 작성한 스토리를 GPT-2로 생성된 스토리보다 더 높게 평가하지 않는다는 사실을 발견했습니다(Karpinska).
이 연구 결과를 우리의 결과와 결합하면, text-davinci-003을 사용한 LLM 평가가 개방형 스토리 생성을 위해 AMT에서 사람의 평가를 사용하는 것보다 더 설득력 있는 결과를 도출한다는 것을 알 수 있습니다.
결과는 text-davinci-003이 스토리의 문법 오류를 확인하는 것과 같은 기본적인 평가를 수행할 수 있음을 보여줍니다.
또한 이 모델은 스토리와 프롬프트의 관련성을 평가하는데 탁월하며, 여기에는 둘 사이의 연결에 대한 보다 복잡한 추론이 포함됩니다.
또한 text-davinci-003의 Krippendorff’s α가 T0 및 text-curie-001보다 훨씬 높은 것으로 나타났는데, 이는 텍스트 다빈치-003에 의한 평가가 생성된 답변의 다양한 샘플링 간에 더 일관성이 있다는 것을 의미합니다.
즉 text-davinci-003은 사람과 같은 평가를 할 수 있다고 보면 된다. 왜냐하면 사람이 쓴 스토리를 GPT2가 쓴 스토리보다 좋게 평가했기 때문이기도하고, 평가 결과의 일관성도 있는 편이기 때문이다.

ChatGPT rates like human experts and can explain its own decision well:

ChatGPT는 또한 사람이 작성한 스토리에 대한 명확한 선호도를 보여주며, 사람이 작성한 스토리에 대한 선호도는 통계적으로 유의미합니다.
OpenAI 사용자 인터페이스를 사용하여 ChatGPT에 질의하면 몇 가지 흥미로운 관찰 결과를 발견할 수 있습니다:

(1): ChatGPT는 특정 평점을 부여한 이유에 대한 자세한 설명을 제공할 수 있습니다. 스토리와 프롬프트의 문장을 참조하여 등급을 뒷받침합니다.
(2): ChatGPT는 때때로 "나는 인공지능이기 때문에 즐거움을 느낄 수 없다"는 이유로 스토리의 호감도를 평가하지 않을 수 있습니다. 이러한 경우, 평점을 부여할 때까지 응답을 다시 생성합니다.
(3): 폭력적이거나 무례한 스토리에 대해 ChatGPT가 호감도를 낮게 평가하는 경향이 있는데, 이는 안전하고 해롭지 않은 답변을 제공하도록 학습되어 잔인하고 불경스러운 스토리를 싫어하기 때문일 수 있습니다.

Experts mostly agree with the ratings and explanations of ChatGPT:

ChatGPT의 4가지 스토리에서 무작위로 답변을 선택하고 영어 선생님들에게 ChatGPT의 이유와 평가에 동의하는지 물어보았습니다.
선생님들은 대부분 등급에 동의하고 ChatGPT의 설명이 합리적이라고 생각했습니다.
흥미롭게도 한 교사는 ChatGPT가 구두점 오류를 문법 오류로 간주하지만 자신은 구두점 오류를 문법 오류라고 생각하지 않기 때문에 문법성에 대한 ChatGPT의 평가에 동의할 수 없다고 말했습니다.
이는 개인마다 평가에 대한 기준이 다르다는 것을 보여주며, 이는 LLM의 경우에도 마찬가지입니다.

text-davinci-003 tends to give higher ratings and ChatGPT is the opposite:

동일한 유형의 텍스트에 대한 동일한 속성에 대한 평가는 사람이 평가하는 것에 비해 text-davinci-003이 더 높은 경향이 있으며, 반대로 ChatGPT는 더 까다로워서 낮은 점수를 주는 경향이 있습니다.
이는 LLM마다 평가에 대한 뚜렷한 성향이 있음을 보여줍니다.
text-davinci-003, ChatGPT, 사람이 평가한 점수의 절대값은 다르지만, 모두 사람이 작성한 텍스트를 GPT-2로 생성된 스토리보다 더 높게 평가합니다.
절대값은 평가자의 편견이나 신념을 반영하는 것이므로 동일한 평가자를 사용하여 서로 다른 시스템을 평가하는 한 비교는 의미가 있습니다.
절대적인 평가점수가 완벽한 것은 아니지만, 같은 평가자(사람이든, LLM이든) 관점에서보면 상대적인 평가의 결과가 의미는 있다.

3.3.1 Does LLM and Human Evaluators Agree on the Rating of Individual Stories?

표 1에서 text-davinci-003과 ChatGPT의 평가는 영어 교사와 마찬가지로 사람이 직접 작성한 스토리에 대한 선호도가 높다는 것을 알 수 있습니다.
그러나 이러한 LLM이 각 개별 스토리에 대한 교사의 평가에 동의하는지 여부는 불분명합니다.

정확히 말하면, 영어 교사가 스토리를 더 높게 평가하면 LLM도 스토리를 더 높게 평가하는 것일까요?
이 질문에 답하기 위해 text-davinci-003과 영어 교사의 평가 사이의 Kendall’s τ 상관 계수를 계산합니다.

주석자 간 합의 점수 대신 상관 계수를 사용하는 이유는 IAA는 주로 두 주석자가 정확한 평가에 동의하는지 여부에 관심을 두는 반면, 상관 계수는 질문에 초점을 맞추기 때문입니다:

"주석자 A가 한 스토리를 더 높게 평가하면 주석자 B도 그 스토리를 더 높게 평가하는가?"라는 질문에 초점을 맞춥니다.
chatgpt로 번역테스크에서 시도한 방법과 같은 방법
사람이 평가한 스토리 점수순서: A1>A2>A3>...
chatgpt가 평가한 스토리 점수순서: B1>B2>B3>...
A set과 B set이 얼마나 유사하냐? 그런느낌임

We calculate Kendall’s τ for four rating attributes as follows:

각 스토리와 각 rating attribute,에 대해 세 명의 영어 교사의 평균 평점을 계산하고 text-davinci-003(세 개의 독립적인 샘플에서 얻은 점수)에 의해 주어진 세 점수의 평균 평점을 계산합니다.
각 속성에 대해 교사의 평균 평점을 벡터 A ∈ R^200으로 수집하고, 여기서 각 항목은 스토리의 평균 평점이며, 마찬가지로 davinci의 평균 평점에 대해 벡터 B ∈ R^200을 구성합니다.
여기서 200은 샘플링한 테스트셋의 수이다.
다음으로, A와 B 사이의 켄달의 τ 상관 계수를 계산합니다.

The Kendall’s τ between teacher ratings and LLM ratings is shown in Table 2.

사람이 평가한것과 chatgpt가 평가한것과 비교

네 가지 속성 모두에서, 그리고 사람이 작성한 이야기와 GPT-2로 생성된 이야기 모두에서 교사의 평가와 text-davinci-003의 평가 간에 약하거나 강한 양의 상관관계가 있음을 발견했습니다.

모든 상관관계의 p-값은 0.05 미만입니다.
따라서 교사가 스토리를 더 높게 평가하면 text-davinci-003도 어느 정도 더 높게 평가한다고 말할 수 있습니다.
또한 다른 속성에 대한 Kendall’s τ가 상당히 다른 것을 관찰할 수 있는데, relevance이 가장 강한 상관관계를 보이는 반면 grammaticality이 가장 약한 상관관계를 보입니다.
이는 관련성을 평가하는 것은 프롬프트의 콘텐츠가 스토리에 언급되어 있는지 확인해야 하는 다소 간단한 작업이기 때문일 수 있습니다.
반대로 문법성을 평가할 때 고려해야 할 사항은 지침에 명확하게 명시되어 있지 않기 때문에 영어 교사와는 다른 루브릭을 가지고 있을 수 있습니다.
또한 한 쌍의 영어 교사 간의 평균 Kendall’s τ를 계산한 결과, 두 교사의 평가 간 grammaticality에는 약한 상관관계가 있는 반면, relevance에 대한 평가의 상관관계는 훨씬 더 강한 것으로 나타났습니다.
결과는 부록의 표 6에 나와 있습니다.
즉 relevance 지표에서는 사람평가와 chatgpt 평가가 꽤 유사하다는 것을 알 수가 있다.
반면 grammaticality에서는 유사도가 낮은 편이다.
추정한 이유로는, relevance가 직관적으로 쉬운 평가기 때문이고 grammaticality은 명확한 가이드라인이 없기 때문이라고 본다.
실제로 평가자들간의 kendall 결과도 유사하다라는 것!

3.3.2 Variance due to Different Instructions

LLM은 때때로 LLM에 질의하는 데 사용되는 명령어에 민감한 것으로 나타났습니다.
개방형 스토리 생성 시 작업 지시 사항과 질문의 변화가 LLM 평가 결과에 어떤 영향을 미치는지 알아보기 위해 지시 사항과 질문을 변경하고 LLM 평가 결과가 어떻게 달라지는지 살펴봅니다.

LLM evaluation시 프롬프트를 변경하여 실험해보자

그림 1의 명령어와 질문을 변경하여 두 가지 명령어를 실험해 보았습니다:
(1) 그림 1의 작업 지침 앞에 "(귀하는 스토리 조각을 평가하기 위해 고용된 인간 작업자입니다.)"라는 문장을 추가합니다.

저희는 LLM이 자신의 역할을 더 잘 이해할 수 있도록 페르소나를 제공하려고 노력합니다.
이는 GPT-3에 페르소나를 부여할 때 다른 결과를 얻을 수 있다는 이전 연구에서 영감을 얻은 것입니다.

(2) 질문 뒤에 다음 문장을 추가하여 자신의 결정에 대해 설명하도록 요청합니다:

결정에 대한 설명도 부탁드립니다.
여기서 우리는 LLM이 자신의 결정을 정당화하라는 요청을 받았을 때 스토리를 다르게 평가할지 알고 싶습니다.
이는 zero-shot chain-of-thought에서 영감을 얻었습니다.
이 실험에서는 ChatGPT 대신 text-davinci-003을 LLM으로 사용하는데, 이는 ChatGPT보다 접근성이 높기 때문입니다.
다양한 실험을 하기 위해서 많이 호출해야되서 그런듯?

결과는 표 3의 상단 블록에 나와 있습니다.
grammaticality and cohesiveness의 경우, 서로 다른 지시문에서 얻은 점수가 매우 비슷하여 서로 다른 지시문으로 인한 점수 변화가 0.1 미만인 것을 관찰할 수 있습니다.
다른 두 속성의 경우 점수 변화는 약간 더 크지만 여전히 0.25 범위 내에 있습니다.
서로 다른 지침으로 인해 약간의 차이가 있기는 하지만, 이러한 차이가 "LLM은 사람이 작성한 스토리를 GPT-2로 생성된 스토리보다 더 높게 평가한다"는 결론을 바꾸지는 못합니다.
따라서 서로 다른 지침은 GPT-2로 생성된 스토리와 사람이 작성한 스토리의 상대적 순위를 바꾸지 않습니다.
요약하면, 동일한 지침을 사용하여 LLM 평가를 통해 스토리를 평가하는 한 이러한 평가 및 비교는 의미가 있습니다.
즉, 다른 프롬프트를 써도 결과는 비슷하게 나온다.

다른 프롬프트로는, 앞에 persona 문장 넣는 것과, 설명 해달라는 CoT 등을 시도해본 것
점수의 차이는 존재하기는 하나 human-written > GPT2-generated 결과는 동일하다.

3.3.3 Variance due to Different Sampling Parameters

LLM에서 답을 생성할 때, nucleus sampling에 사용되는 temperature T와 probability p를 포함하여 생성용 하이퍼파라미터 집합을 선택해야 합니다.
다른 샘플링 매개변수가 LLM 평가 결과를 변경하는지 이해하기 위해 text-davinci-003에서 답을 생성할 때 샘플링에 사용되는 temperature 를 수정하고 nucleus 샘플링의 p를 0.9로 고정합니다.
두 매개변수 모두 출력의 다양성을 제어하는 데 사용되므로 API 문서에서 권장하는 대로 두 매개변수 중 하나만 변경하면 충분하기 때문에 T와 p를 동시에 변경하지 않습니다.
T를 1에서 0으로 변경한 결과는 표 3의 하단 블록에 나와 있습니다.

T가 1에서 0으로 변화함에 따라 흥미로운 추세를 관찰할 수 있습니다.
대부분의 경우 평균 등급이 약간 떨어집니다.
즉 T가 높을수록 점수가 높아지는 경향이 있음. T가 작아질수록 argmax을 취하는 느낌이다. 즉 T가 높다는 것은 좀더 확률적으로 뽑겠다는 의미
T = 0이 단순히 argmax sampling이라는 점을 고려하면, 이 결과는 가장 높은 확률을 가진 LLM의 응답이 더 낮은 점수를 주는 경향이 있음을 나타냅니다.
이러한 흥미로운 경향에도 불구하고 LLM은 사람이 작성한 스토리를 GPT-2로 생성된 스토리보다 일관되게 더 높게 평가합니다.

표 3에는 표시되어 있지 않지만, temperature가 낮아질수록 IAA가 증가하는 것을 알 수 있습니다.

이는 온도가 낮을수록 LLM 샘플링 시 다양성이 줄어들어 샘플링된 등급이 더 가깝게 일치하기 때문에 예상되는 결과입니다.

요약하면, 지시 사항과 temperature를 변경하면 LLM이 부여하는 평점의 절대값이 약간 변경될 수 있지만 사람이 작성한 스토리에 대한 LLM의 선호도는 변경되지 않습니다.
이 섹션의 전반적인 결과는 LLM 평가가 개방형 스토리 생성을 평가하는 데 유용하다는 것을 보여줍니다.
즉 생성하는 config를 변경하면 점수 변화가 있기는 하다.
하지만 프롬프트 결과와 마찬가지로 human-written > GPT2-generated 라는 판단에는 변함이 없다는 것!

4 Example Task 2: Adversarial Attack

As another application, we use LLM evaluation to rate the texts generated by adversarial attacks.

4.1 Task Introduction

훈련된 텍스트 분류기와 텍스트 분류기가 정확하게 분류할 수 있는 양성(비적대적) 테스트 샘플이 주어지면, 적대적 공격은 분류기가 잘못된 예측을 하도록 만드는 적대적 샘플을 만드는 것을 목표로 합니다.
특수한 유형의 적대적 공격은 synonym substitution attacks(SSA)이라고 하는데, 이 공격은 양성 샘플에서 일부 단어를 동의어로 대체하여 적대적 샘플을 생성합니다.

단어를 동의어로 대체함으로써 양성 샘플의 의미가 적대적 샘플에 보존되어 사람이 적대적 교란을 감지할 수 없게 만들어야 합니다.
개념적으로는 합리적이지만, 최근 많은 SSA가 양성 샘플의 의미를 크게 변경하는 비문법적이고 부자연스러운 적대적 샘플을 생성하는 경우가 많다는 사실이 밝혀졌습니다.

적대적 샘플의 품질을 평가하기 위해서는 사람의 평가가 매우 중요하며 이전 연구에서 널리 사용되었습니다.
이번 실험에서는 LLM이 인간 전문가처럼 적대적 샘플의 품질을 평가할 수 있는지 알아보고자 합니다.
적대적 샘플은 정상적인 텍스트가 아니기 때문에 LLM은 훈련 중에 이러한 비정상적인 입력을 보지 못했을 수 있습니다.
LLM이 이러한 적대적 샘플을 어떻게 평가하는지 알면 흥미로울 것입니다.
즉 동의어등으로 교체하는 식으로 문장을 변경한 것이 적대적 샘플이라는 것이다.
이 적대적샘플은 인간 전문가들이 이상한 문장이라고 평가하는 것 같은데.. LLM도 그런지 알아보자?

4.2 Experiment Setup

세 가지 대표적인 SSA를 (Textfooler, PWWS, and BAE) 선택했습니다:

이러한 공격은 오늘날 SSA 관련 문헌에서 강력한 기준선으로 주로 사용됩니다.

이 세 가지 SSA를 사용하여 뉴스 분류 데이터 세트인 AG-News를 기반으로 미세 조정된 BERT-base-uncased model을 공격합니다.
각 SSA에 대해 100쌍의 양성 및 적대적 샘플을 무작위로 선택하고 LLM을 사용하여 품질을 평가합니다.
여기서는 판단을 더 잘 설명할 수 있는 ChatGPT를 LLM으로 사용한 결과를 보여줍니다.
선행 연구의 제안에 따라 적대적 샘플의 품질을 fluency과 meaning preservation이라는 두 가지 측면에서 평가합니다.
유창성을 평가하기 위해 LLM에게 뉴스 한 편(양성 또는 적대적 샘플)과 다음 질문을 제시합니다:

뉴스 제목의 텍스트가 얼마나 자연스럽고 유창한가요? (1~5점 척도, 1점이 가장 낮음).

의미 보존을 위해, 우리는 LLM에게 양성 샘플과 적대적 샘플을 모두 제시하고 이 질문에 답하도록 유도합니다:

뉴스 제목 1의 의미(또는 의미론)가 뉴스 제목 2에서도 보존된다는 것에 동의하십니까? (1~5점 척도, 1은 매우 동의하지 않음, 5는 매우 동의함).

The exact instruction and formatting are presented in Appendix D.2.3.
또한 세 명의 영어 교사에게 샘플의 유창성과 의미 보존을 평가해 달라고 요청합니다.
과제 지침과 질문은 LLM 평가와 동일한 형식으로 구성됩니다.

4.3 Experiment Result

결과는 표 4에 나와 있습니다.

양성 및 적대적 샘플의 유창성(유창함)과 적대적 공격 전후 뉴스 제목의 의미 보존(평균)에 대한 LLM 평가 및 사람 평가 결과의 평균 리커트 점수입니다.

영어 교사들은 SSA가 생성한 적대 샘플의 fluency and meaning preserving 측면에서 매우 낮은 평가를 내린 것을 알 수 있으며, 이는 적대 샘플의 품질에 대한 최근 관찰 결과와 일치하는 결과입니다.
LLM 평가 결과를 해석하기 전에 먼저 LLM이 과제를 이해하고 있는지에 대한 건전성 검사를(sanity check) 실시합니다.
완전히 동일한 두 개의 양성 샘플의 의미 보존 정도를 LLM에 평가하도록 요청합니다. 이상적으로는 LLM이 항상 5점을 주어야 하며, 이는 의미가 변경되지 않는다는 데 강력하게 동의한다는 의미입니다.
이 sanity check의 결과는 표 4에서 †가 표시된 항목으로 5.00점 만점입니다.

"두 제목이 동일하므로 5점(매우 동의함)을 부여합니다."라는 문구가 자주 나오는데, 이는 ChatGPT가 작업의 내용을 이해하고 있음을 보여줍니다.

다음으로 적대적 샘플의 LLM 평가 결과를 살펴봅니다.

ChatGPT가 영어 교사보다 적대적 샘플을 더 높게 평가하는 경향이 있음을 관찰할 수 있었는데, 이는 ChatGPT가 적대적 샘플의 부자연스럽고 인위적인 부분에 대해 덜 가혹하게 평가한다는 것을 의미합니다.
text-davinci-003을 사용하여 동일한 실험을 수행한 결과 비슷한 결과가 나왔습니다.

ChatGPT가 교사보다 적대적인 샘플을 더 높게 평가했지만, 여전히 양성 샘플보다 적대적인 샘플을 훨씬 낮게 평가했습니다.
ChatGPT는 또한 BAE가 생성한 적대적 샘플이 Textfooler와 PWWS가 생성한 샘플보다 더 낫다는 영어 교사들의 의견에 동의합니다.
흥미롭게도 ChatGPT는 PWWS가 Textfooler보다 더 자연스럽다고 평가하는 반면, 전문가 평가에서는 이러한 평가 차이가 나타나지 않습니다.
언뜻 보기에 이는 ChatGPT가 사람의 평가 결과와 일치하지 않는다는 것을 의미합니다.
그러나 사람의 평가 결과를 면밀히 살펴보면 두 명의 교사는 PWWS를 Textfooler보다 높게 평가한 반면 한 명의 교사는 PWWS를 Textfooler보다 훨씬 낮게 평가한 것으로 나타났습니다.
이는 ChatGPT가 실제로 대다수의 전문가들의 의견에 동의한다는 것을 나타냅니다.
전반적으로 LLM은 대부분의 인간 전문가와 마찬가지로 적대적 텍스트와 양성 텍스트의 품질을 평가할 수 있습니다.

E Experiment Details on Adversarial Attacks

섹션 4에서 사용된 적대적 샘플은 유(Yoo)의 샘플입니다. 유는 다양한 피해자 모델에 대해 다양한 적대적 공격을 사용하여 다양한 적대적 샘플 세트를 생성합니다. AG-News에서 훈련된 bert-base-uncased 텍스트 분류기에 대해 생성된 적대적 샘플을 세 가지 다른 적대적 공격을(Textfooler, PWWS, and BAE) 사용하여 사용합니다. 이 데이터 세트의 의도는 SSA 연구를 촉진하기 위한 것이며, 트위터는 이를 위반하지 않습니다.
여기에서는 표 11에 적대적 샘플의 품질을 평가하기 위한 LLM 평가로 text-davinci-003을 사용한 보완 결과를 보여줍니다.
텍스트-다빈치-003을 사용한 결과, 텍스트-다빈치-003 역시 사람보다 적대적 샘플을 높게 평가하는 반면 양성 샘플에 비해서는 현저히 낮다는 점에서 ChatGPT와 유사하다는 것을 알 수 있습니다. 3.3절에서 이미 살펴본 바와 같이, text-davinci-003은 더 높은 등급을 부여하는 경향이 있습니다. 섹션 4.3에서 언급했듯이, 한 교사는 텍스트풀러의 유창성을 PWWS보다 훨씬 높게 평가한 반면, 다른 두 교사는 그렇지 않았습니다.
표 12에는 각 교사의 세 가지 적대적 공격에 대한 유창성 평가가 나와 있습니다.

5 Discussions

이 논문에서는 사람의 평가를 대체하기 위해 텍스트의 품질을 평가하는 데 LLM을 사용할 것을 제안합니다.
LLM 평가의 잠재력을 입증하기 위해 두 가지 다른 작업에서 텍스트의 품질을 평가하는 데 LLM을 사용합니다:

open-ended story generation and adversarial attacks.

그 결과, LLM이 뛰어난 zero-shot in-context learning 능력을 가지고 있더라도 항상 LLM 평가에 사용하기에 적합하지는 않다는 것을 보여주었습니다.
그럼에도 불구하고 최고의 InstructGPT와 ChatGPT는 예시로 사용한 두 가지 과제에서 인간 전문가처럼 텍스트의 품질을 평가할 수 있음을 확인했습니다.
전반적으로 이 백서의 결과는 LLM 평가가 자연어 처리 시스템과 알고리즘을 평가하는 데 사용될 수 있는 잠재력을 가지고 있음을 보여줍니다.
Pros of LLM evaluation

사람에 의한 평가와 비교했을 때 LLM 평가에는 몇 가지 장점이 있습니다. 첫째, LLM 평가는 재현성이 더 높습니다.
인적 평가는 동일한 평가자 그룹을 채용하기 어렵고, 동일한 지침, 채용 플랫폼, 평가자 자격을 사용하더라도 유사한 실험의 결과를 비교하기 어렵기 때문에 평가 결과를 재현하기 어렵습니다.
이에 반해 LLM 평가는 이러한 단점이 없습니다.
LLM 평가에 사용되는 모델, 무작위 시드, LLM에서 답을 생성하는 데 사용되는 하이퍼파라미터를 지정하면 LLM 평가 결과를 재현할 가능성이 높아집니다.
경우에 따라 LLM 제공업체가 정기적으로 LLM을 업데이트할 수 있으며, 이 경우 LLM이 오래되어 액세스할 수 없는 경우 LLM 평가를 재현할 수 없게 될 수 있다는 점에 유의하세요.

Second, the evaluation of each sample is independent of each other in LLM evaluation.

반대로 사람의 평가에서는 현재 예시의 평가가 이전 샘플의 영향을 어느 정도 받을 수 있습니다.
인간은 현재 샘플을 이전에 본 샘플과 비교하는 경향이 있으며, 이는 평가에 영향을 미칩니다.
그 증거로, 400개의 스토리를 평가한 후 인터뷰에서 영어 교사들은 자신의 평가를 보정하는 데 시간이 좀 걸렸다고 말했습니다(부록 C.3.1).
따라서 LLM 평가를 사용하면 평가 대상 샘플의 순서가 결과를 바꿀지 걱정할 필요가 없으므로 일부 실험 설계를 단순화할 수 있습니다.
하지만 서로 다른 샘플의 등급을 보정할 수 있어야 한다는 주장도 있을 수 있으며, 이 때문에 사람이 직접 평가하는 것이 더 선호될 수 있습니다.
전반적으로 평가자(사람 또는 LLM)의 평가가 이전에 평가된 항목의 영향을 받아야 하는지 여부는 본질적으로 실험의 설계 선택에 달려 있습니다.

Third, LLM evaluation is cheaper and faster than human evaluation, making it easier and quicker for researchers to evaluate the quality of NLP systems.

영어 교사를 고용하여 200개의 스토리를 평가하는 데는 미화 140달러의 비용이 들지만, 최상의 InstructGPT 모델을 사용한 LLM 평가에는 미화 5달러 미만의 비용이 듭니다.
채용부터 평가 결과 수집까지 일주일이 넘게 걸렸지만, InstructGPT를 쿼리하고 LLM 평가를 수행하는 데는 몇 시간밖에 걸리지 않았습니다.

마지막으로, 사람에 의한 평가가 아닌 LLM 평가를 활용하면 폭력적, 성적, 혐오 또는 편향된 자료와 같은 불쾌한 콘텐츠에 사람이 노출될 필요성을 최소화할 수 있습니다.

이러한 콘텐츠는 평가자가 이러한 텍스트를 읽고 평가하는 동안 불편함을 유발할 수 있습니다.

Limitations and Ethical Considerations of LLM evaluation

이 논문에서 보여준 LLM 평가의 유망한 결과에도 불구하고 이 방법에는 몇 가지 한계가 있습니다.
첫째, LLM은 잘못된 사실 지식을 가지고 있을 수 있으므로 사실 지식이 필요한 작업에 사용하기에는 적합하지 않습니다.
둘째, 특정 방식으로 행동하도록 학습된 LLM은 특정 응답에 편향될 수 있습니다.
즉, 안전하고 해롭지 않게 학습된 LLM은 더 긍정적이고 낙관적인 반응을 생성하는 것을 선호하게 될 수 있으며, 이는 ChatGPT와의 상호작용을 통해 관찰되었습니다.
또한, 연구자가 LLM을 더 안전하게 만들기 위해 노력하더라도 LLM은 기본 윤리에 위배되는 유해하고 편향된 반응을 생성할 수 있으며, LLM 평가 결과는 매우 의심스러울 수 있습니다.
그러나 이러한 한계와 잠재적 해악은 인적 평가에도 적용되며, 인적 평가자의 편견이 인적 평가 결과에 영향을 미칠 수 있다는 점에 유의하는 것이 중요합니다.

저희의 선구적인 아이디어인 LLM 평가는 자연어 처리 커뮤니티를 변화시킬 수 있는 잠재력을 가지고 있습니다.
향후 연구자들은 이 기술의 한계를 인식하면서 이 기술의 사용을 고려할 것을 권장합니다.
이 백서의 목표는 사람의 평가를 대체하는 것이 아니라 대안을 제시하는 것입니다.
사람 평가와 LLM 평가는 모두 고유한 장단점이 있으며, 함께 사용할 수 있습니다.
새로운 자연어 처리 시스템을 개발할 때 저렴하고 빠르게 품질을 판단할 때는 LLM 평가를 사용하는 것이 좋으며, 실제 애플리케이션에 자연어 처리 시스템을 배포하기 전에 사람의 피드백을 수집할 때는 인간 평가를 사용하는 것이 가장 좋습니다.

Limitations

LLM 평가에는 주목해야 할 추가적인 한계와 잠재적 위험이 있으며, 이러한 한계는 사실 사전 학습된 언어 모델의 잘 알려진 문제입니다. ChatGPT에 대한 Open AI 블로그에 나와 있듯이, ChatGPT는 때때로 옳고 그럴듯하게 들리지만 전혀 말도 안 되는 답변을 생성합니다. OpenAI는 또한 모델의 응답이 모델에 쿼리하는 데 사용되는 프롬프트에 민감할 수 있음을 인정합니다. 섹션 3.3.2에서는 서로 다른 명령어들 간의 전반적인 결과가 크게 다르지 않다는 것을 발견했지만, 작업 명령어에 대한 모든 종류의 수정에 대해 이것이 사실이라고 보장할 수는 없습니다.
OpenAI 블로그에 나열된 제한 사항 외에도 다른 제한 사항이 있습니다. 예를 들어, LLM에는 감정이 없을 수도 있습니다. AI 모델에 감정이 있는지 여부는 보다 철학적인 질문이며 논란의 여지가 있으므로 감정 관련 작업을 평가하는 데 이러한 모델을 사용한 결과는 강한 도전을 받을 수 있으며 연구 윤리에 위배될 수도 있습니다. 실험을 통해 확인한 바에 따르면 ChatGPT는 스토리의 호감도를 평가하라는 질문에 "나는 AI 시스템이며 인간과 같은 감정이 없습니다"라고 대답하는 경우가 많습니다.
LLM 평가의 또 다른 중요한 한계는 사람 평가와 달리 작업 지침에서 시각적 단서를 처리할 수 없다는 점입니다. 인간 평가자는 특수 글꼴이나 텍스트 스타일과 같은 서식을 사용하여 지침의 중요한 부분에 집중할 수 있습니다. 또한, 지시 사항과 질문의 형식은 인간 평가자가 과제에 접근하는 방식에 영향을 줄 수 있습니다. 특수 HTML 구문을 사용하면 시각적 단서를 대신할 수 있지만, 이러한 태그는 사람 평가에는 사용되지 않으므로 LLM 평가에 이러한 HTML 태그를 사용하여 LLM에 대한 입력에 시각적 단서를 통합하지는 않습니다. 그러나 LLM은 원시 텍스트 입력만 처리할 수 있으며 시각적 단서를 받아들일 수 없습니다.

Reference

https://aclanthology.org/2023.acl-long.870.pdf

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-184, Can Large Language Models Be an Alternative to Human Evaluations?, ACL 2023

◼ Comment

0 Abstract

1 Introduction

2 LLM Evaluation

2.1 Large Language Models (LLMs)

2.2 LLM Evaluation

3 Example Task 1: Open-Ended Story Generation

3.1 Task Introduction

3.2 LLM Evaluation and Human Evaluation

3.3 Experiment Results

3.3.1 Does LLM and Human Evaluators Agree on the Rating of Individual Stories?

3.3.2 Variance due to Different Instructions

3.3.3 Variance due to Different Sampling Parameters

4 Example Task 2: Adversarial Attack

4.1 Task Introduction

4.2 Experiment Setup

4.3 Experiment Result

E Experiment Details on Adversarial Attacks

5 Discussions

Limitations

댓글

댓글 쓰기