◼ Comment

이 논문은 환각이 왜 발생하는가? 에 대한 답변과 함께, 이러한 환각을 줄이려면 어떻게 해야하는가? 를 탐구한 논문이라 보면된다

논문이 제안한 핵심은 『LLM은 finetuning 때 익숙하지 않은(unfamiliar) 개념이나 지식을 학습하면, 테스트 단계에서도 비슷한 unfamiliar 입력에 대해 미세조정 때 본 응답을 그대로 따라 환각을 일으킨다』 라는 가설

finetuning을 할 때, pretraining 때 배우지 않은, 잘 모르는 지식에(unfamilir 입력) 대해 학습하게 된다면

테스트때 잘 모르는 지식에 질문받으면, 비슷한 답변을 내놓는다 라고 주장한다
즉, 학습/테스트 시 unfamilir 입력에 대한 응답 형태가 유사하다는 것이다 (분포를 따라간다)
여기서 finetuning은 SFT, RL 이라고 말하지만, 여기서 RL(PPO)에 중점을 둔 것 같다
자세히는 안봤지만, 이것에 대해 실험을 해봤고 그렇다는 것을 보여준듯?

그래서 이것을 해결하기 위해서는

RL로 학습할때, reward을 보수적 보상모델로 선정하면 된다고 한다
일반적인 보상모델은 과대평가된 보상을 하기 때문에, unfamilir 입력에 대해 높은 보상이 가는 문제가 있다고 함
따라서 LLM 자기 자신으로 응답 샘플링하고, FActScore을 통해 만든 데이터로 보수적 reward 모델을 학습했다고 함

좀 더 자세히는

(1) 표준 SFT (일반 supervised finetuning)
(2) RL (PPO) + 일반 보상 모델(standard reward model)
(3) RL (PPO) + 보수적 보상 모델(conservative reward model)
위 3가지로 학습해서 내뱉은 응답을 FactScore로 검증했더니, (3)이 제일 나았다는 것
표준 SFT 모델:

익숙하지 않은 입력(모델이 잘 모르는 정보)에 대해 잘못된 사실(false facts)이 많이 포함된 응답을 생성했습니다.

RL + 일반 보상 모델(Standard Reward Model):

사실적인 정보의 양은 표준 SFT와 비슷하거나 조금 나았지만, 잘못된 사실을 생성하는 문제는 여전히 심각했습니다.
이유: 일반 보상 모델이 보상을 과대평가(overestimate)하여 잘못된 정보도 긍정적으로 평가했기 때문입니다.

RL + 보수적 보상 모델(Conservative Reward Model) (이 논문이 제안한 방식):

**정확한 사실(true facts)**은 유지하거나 오히려 더 많아졌으며,
특히 **잘못된 사실(false facts)**의 수가 매우 큰 폭으로 감소했습니다.
즉, 보수적 보상 모델을 사용하면 익숙하지 않은 입력에서도 모델이 무리하게 잘못된 정보를 생성하지 않고 더 신중하고 정확한 응답을 생성했습니다.

Abstract

대형 언어 모델(LLM)은 흔히 환각(hallucination) 현상을 일으키는 것으로 알려져 있지만, 모델이 환각을 생성하는 근본적인 메커니즘에 대해서는 아직 명확히 이해되지 않고 있다. 본 연구에서는 모델의 미세조정(finetuning) 데이터에 등장하는, 기본 모델이 알지 못하는 개념을 포함한 '익숙하지 않은(unfamiliar)' 예시들이 이러한 오류의 형성에 결정적인 역할을 한다는 점을 발견하였다. 특히, LLM의 환각된 예측은 익숙하지 않은 미세조정 예시에 나타난 응답을 모방하는 경향이 있다. 이는 익숙하지 않은 미세조정 예시를 어떻게 감독(supervise)하느냐에 따라 모델이 익숙하지 않은 질의에 대한 응답(예: "모른다"고 답하기)을 조정할 수 있음을 시사한다.

우리는 이를 TriviaQA와 MMLU 데이터셋을 활용한 SFT(supervised finetuning), 강화학습(RL), 그리고 보상 모델 미세조정(reward model finetuning)을 포함한 일련의 제어된 실험을 통해 경험적으로 검증하였다. 또한, 본 연구는 긴 형식(long-form) 모델 생성의 사실성을 높이기 위한 RL 미세조정 전략을 탐구하였다. 보상 모델 자체의 환각이 RL 사실성 미세조정의 효과를 크게 저하시킬 수 있지만, 보상 모델이 어떻게 환각을 생성하는지를 전략적으로 제어함으로써 이러한 부정적인 영향을 최소화할 수 있다는 것을 확인하였다. 본 연구에서 얻은 환각 제어에 관한 관찰 결과를 활용하여, 보다 신뢰할 수 있는 보상 모델 학습 방식을 제안하고, 이를 통해 긴 형식의 전기 및 도서/영화 줄거리 생성 과제에서 RL 사실성 미세조정의 효율성을 높일 수 있음을 보였다.

1 Introduction

대형 언어 모델(Large Language Models, 이하 LLM)은 종종 “환각(hallucinate)”이라 불리는 현상을 보이는데, 이는 그럴듯해 보이지만 실제로는 잘못된 사실을 생성하는 행동을 의미한다. 특히, 모델이 학습 과정에서 접한 지식의 범위를 넘어서는 개념에 대한 질문을 받을 때 이러한 현상이 두드러지게 나타난다(Kandpal 외, 2023; Kalai와 Vempala, 2023).

예를 들어, 잘 알려지지 않은 사람의 전기를 생성하라고 모델에게 요구하는 경우를 들 수 있다.

본 논문에서는 이러한 질의를 모델에게 "익숙하지 않은(unfamiliar)" 입력이라고 부를 것이다.
모델은 익숙하지 않은 입력이 주어졌을 때 사실을 만들어내기보다는, 자신이 모른다고 명시하거나, 알고 있는 지식의 범위 내에서만 응답하는 것이 바람직하다.
우리의 연구 목표는 특히 긴 형태(long-form)의 생성 과제에서 모델이 이와 같은 행동을 학습하도록 하는 것이다.

이 목표를 달성하기 위한 첫 번째 단계로, 우리는 LLM이 환각을 생성하는 메커니즘을 보다 명확히 이해하는 데 초점을 맞추었다.

우리의 분석에 따르면, 미세조정(finetuning)을 거친 모델이 생성하는 환각 응답은 주로 모델의 미세조정 데이터에 포함된 익숙하지 않은 예시(즉, 사전학습(pretraining) 모델에게 생소한 개념을 담고 있는 미세조정 예시)에서의 응답을 모방하는 경향이 있다.
보다 구체적으로, 테스트 질의가 점점 더 생소해질수록 LLM의 예측은 미세조정 데이터 내의 익숙하지 않은 예시들과 연관된 응답 분포로 수렴하는 경향을 보인다.

이 관찰을 그림 1에서 개념적으로 설명하였다.

즉, pretraining에 없는 지식을(unfamiliar 지식) finetuning을 했을때의 응답 방식 = unfamiliar 입력에 대한 응답 방식이 된다는 것이다

우리는 이러한 현상을 경험적으로 입증하기 위해 일련의 통제된 실험을 진행했다.

실험 과정에서는 익숙하지 않은 미세조정 예시의 감독 방식(supervision)을 조작하여, 미세조정된 모델의 예측에 미치는 영향을 조사하였다.
실험은 다중 선택형 질의응답 과제(MMLU)와 단답형 질의응답 과제(TriviaQA)를 이용하여 수행하였으며, 이를 통해 모델의 출력 분포를 명확하게 특징지을 수 있었다.
우리의 실험 결과, SFT(supervised finetuning), RL(강화학습), 그리고 보상 모델(reward model) 미세조정을 포함한 여러 미세조정 방식에서, 익숙하지 않은 테스트 질의에 대한 모델의 예측은 실제로 익숙하지 않은 미세조정 예시의 응답 분포에 가까워진다는 것을 확인하였다.
어떤 학습을 하더라도, unfamiliar 질문을 테스트시, unfamiliar finetuning 데이터 분포를 따라간다는 것을 보여줬다

이러한 관찰 결과는 모델 생성 결과에서 나타나는 사실적 오류를 최소화하는 방법을 제시한다.

즉, 모델의 미세조정 데이터에서 익숙하지 않은 예시를 전략적으로 조작함으로써, 모델이 익숙하지 않은 질의에 대해 보다 바람직한 응답(예: 불확실성을 나타내는 언어적 표현)을 하도록 유도할 수 있다는 것이다.

우리는 이러한 통찰을 활용하여 긴 형태 생성(long-form generation)에서 LLM이 생성하는 텍스트의 사실성을 개선하는 보다 나은 미세조정 방법을 고안했다.
특히, RL 기반 접근법에 중점을 두었으며, 이는 보상 모델을 사용하여 미세조정을 감독함으로써 긴 형태 생성 과제에도 확장 가능한 방법이다.

그러나 보상 모델 자체도 환각을 겪을 수 있으며, 이로 인해 RL 사실성 미세조정의 효과가 감소할 수 있다.

우리는 이전의 통찰을 바탕으로, 과장된 보상 환각(overestimated reward hallucination)을 방지하도록 보상 모델을 학습시키는 접근법을 개발했으며, 이를 '보수적 보상 모델(conservative reward models)'이라고 부른다.
보수적 보상 모델을 사용하여 RL 사실성 미세조정을 수행하면 보상 모델의 환각이 초래하는 부정적인 영향을 크게 줄일 수 있으며, 긴 형태의 전기 및 도서/영화 줄거리 생성 과제에서 표준적인 SFT 및 표준 RL 대비 사실적 응답 생성을 더 안정적으로 학습할 수 있음을 확인했다.

정리하자면, 본 연구의 주요 기여는 다음과 같다:

(1) 익숙하지 않은 질의에 대한 미세조정된 LLM의 예측에 영향을 미치는 요소들을 개념적으로 설명하는 모델을 제시하였다.
(2) 이러한 관찰 결과를 바탕으로 긴 형태 생성 과제에서 RL 사실성 미세조정을 보다 안정적으로 수행할 수 있는 접근법을 개발하였다.
우리는 본 논문의 통찰이 LLM의 환각 메커니즘에 대한 이해를 증진시키고, 이를 통제할 수 있는 원리를 제공함으로써 신뢰할 수 있는 LLM 구축에 도움이 되기를 바란다.

2 관련 연구

많은 연구들이 대형 언어 모델(LLM)이 사실과 다른 응답을 생성하는 환각(hallucination) 현상을 자주 보인다는 점을 기록해왔다(Kalai와 Vempala, 2023; Bubeck 외, 2023; Kadavath 외, 2022; Agrawal 외, 2023). 또한, 여러 연구들은 어떠한 조건에서 환각이 발생하는지와 LLM이 이러한 상황에서 어떻게 행동하는지를 조사해왔다. 특히, LLM은 모델의 학습 데이터에서 드물게 언급된 지식을 질의할 때 더 자주 환각을 생성하는 경향을 보인다(Mallen 외, 2023; Kandpal 외, 2023). 더 나아가, LLM의 예측은 어느 정도 보정(calibration)이 이루어지는 경향이 있으며(Kadavath 외, 2022; Zhao 외, 2021; Tian 외, 2023b), 모델 내부의 표현(internal representations)이 어느 정도 모델의 불확실성을 인지하고 있음을 반영한다는 연구도 있다(Liu 외, 2023; Azaria와 Mitchell, 2023). 우리의 연구는 LLM의 환각이 모델의 익숙하지 않은 미세조정 예시와 관련된 응답을 모방한다는 점을 발견함으로써, 불확실성 하에서의 LLM 행동에 대한 이해를 확장하는 역할을 한다.

또한 다수의 기존 연구들은 LLM 환각이 야기하는 문제를 해결하기 위한 방안도 제안하고 있다. 대표적인 연구 분야로는 환각 탐지(hallucination detection) (Manakul 외, 2023; Mündler 외, 2023; Xu 외, 2023; Kuhn 외, 2023), 사실성 평가 자동화(automated evaluation of factuality) (Min 외, 2023; Umapathi 외, 2023; Jing 외, 2023), 그리고 환각 완화(mitigation) 기술 등이 있다. 환각을 완화하기 위한 일반적인 전략으로는 특수한 샘플링 방법(specialized sampling methods) (Lee 외, 2022; Li 외, 2023; Chuang 외, 2023; Zhang 외, 2023b), 더 신뢰할 수 있는 입력 프롬프팅(reliable input prompts)의 사용 (Si 외, 2022), 외부 지식을 통합하기 위한 검색 증강(retrieval augmentation)의 활용(Gao 외, 2023; Peng 외, 2023; Varshney 외, 2023; Yao 외, 2023; Shuster 외, 2021), 그리고 본 연구와 가장 밀접한 관련이 있는 사실성을 위한 모델 미세조정(finetuning) 기법들이 있다.

구체적으로, 어려운 질문에 대해 “모른다”는 형태로 응답하는 방식으로 데이터를 라벨링하여 SFT(supervised finetuning)를 수행하는 방법(Lin 외, 2022; Yang 외, 2023; Zhang 외, 2023a), 그리고 강화학습(RL)을 활용한 미세조정(Shulman, 2023; Goldberg, 2023; Tian 외, 2023a; Sun 외, 2023; Roit 외, 2023; Mesgar 외, 2020)이 모델 생성의 사실성을 향상시키는 것으로 알려져 있다. 우리 연구 역시 환각 완화를 위한 미세조정 기법을 탐구하고 있지만, 특히 그동안 연구가 거의 이루어지지 않았던 보상 모델(reward model) 자체의 환각이 RL 기반의 사실성 미세조정에 미치는 영향을 깊이 있게 다룬다는 점에서 차별성을 갖는다. 우리는 이러한 보상 모델의 환각이 RL 사실성 미세조정의 효율성에 상당히 큰 영향을 미칠 수 있음을 확인하였다.

3 문제 설정

최신의 대형 언어 모델(LLM)은 일반적으로 두 단계로 학습이 이루어진다.

먼저 광범위한 범위의 데이터셋을 사용한 사전 학습(pretraining)을 수행한 뒤,
특정한 지침(instruction)을 따르는 더 구체적인 데이터셋을 사용하여 미세조정(finetuning)을 수행한다(Ouyang 외, 2022).

이런 방식으로 학습된 모델은 훈련 데이터에 충분히 나타나지 않은 입력이 주어졌을 때 바람직하지 않은 응답을 생성할 가능성이 높다.

특히, 모델은 사전 학습 데이터의 분포를 벗어난 질의가 입력으로 들어왔을 때, 그럴듯하지만 사실적으로 부정확한 응답을 내놓거나, 미세조정 데이터의 분포를 벗어난 질의가 들어왔을 때는 아예 무의미한 응답을 생성하기도 한다.
본 연구는 전자의 상황에 초점을 맞추고 있다.
즉, 입력 질의의 스타일은 미세조정 데이터에 포함된 예시들과 유사하지만, 해당 질의가 요구하는 개념이 사전 학습된 모델의 지식 범위를 넘어서는 상황이다.
우리는 이러한 종류의 입력을 모델에게 "익숙하지 않은(unfamiliar)" 입력이라 부른다.

pretraining 데이터에 없는 지식에 대한 질문(unfamiliar 입력)에 대한 응답에 대한 분석? 논문이라 보면 되는듯

본 논문의 실험에서는 주로 질의-응답(question-answering) 과제를 통해 분석을 진행하지만, 본 논문에서 제안한 분석 방법과 기법들은 LLM이 프롬프팅을 통해 수행하는 모든 생성 과제에도 적용될 수 있다.

특히 사전 학습 데이터의 분포와 관련된 분포 이동(distribution shift)의 영향을 명확히 확인하기 위해, 평가할 때 사용하는 테스트 질의들은 미세조정 데이터와 동일한 분포에서 샘플링되지만, 미세조정 과정에서는 제외된(held-out) 질의들을 사용하였다.

또한, 테스트 질의의 생소함(unfamiliarity)에 따라 모델의 행동이 어떻게 달라지는지를 이해하기 위해, 평가 과정에서 제외된(held-out) 테스트 데이터셋을 여러 단계의 생소함 수준으로 나누었다.

질의가 얼마나 생소한지를 정량화하기 위해 우리는 사전 학습된 모델(pretrained model)에 해당 과제에서 추출한 소수의 예시(few-shot examples)와 함께 관심 있는 질의를 입력으로 넣어 몇 개의 예측 결과를 생성하고, 그 예측의 품질(quality)을 평가하였다.
여기서 예측 품질은 과제별로 정의된 특정 평가 지표를 사용하여 측정하였다.
우리는 이 지표를 질의의 **"생소함 점수(unfamiliarity score)"**라고 정의한다.
미세조정 예시가 특정 임계값 이상의 생소함 점수를 가질 때, 그 예시를 "익숙하지 않은" 예시라고 간주한다.

4 LLM이 어떻게 환각을 일으키는지 이해하기

본 장에서는 미세조정된(finetuned) LLM이 환각(hallucination)을 생성하는 데 영향을 미치는 메커니즘을 분석한다. 우리는 모델이 익숙하지 않은 입력을 마주했을 때, 미세조정 데이터에 존재하는 익숙하지 않은 예시들의 응답을 모방하여 예측할 것이라고 가설을 세웠다. 먼저 이 가설을 더욱 구체적으로 설명하고, 이어서 일련의 통제된 실험을 통해 가설을 검증할 것이다.

4.1 주요 가설(Main Hypothesis)

언어 모델 $f_\theta$ 를 생각해 보자. 이 모델은 입력 프롬프트(prompt) $x$ 에 대한 응답의 확률 분포 $P_\theta(y|x)$ 를 생성한다. 우리는 데이터셋 $D = \{(x_i, s_i)\}_{1 \leq i \leq N}$ 을 이용하여 모델을 미세조정(finetune)하며, 이때 손실 함수(loss function)는 다음과 같다:

$\sum_{(x_i, s_i) \in D} L(f_\theta(x_i), s_i)$

여기서 $s_i$ 는 입력 $x_i$ 에 연결된 감독 신호(supervision)를 나타낸다. 손실 함수 $L$ 의 선택에 따라, 이 미세조정은 SFT(supervised finetuning, 지도학습 기반 미세조정, 이때 $s_i$ 는 정답 응답) 또는 RL(강화학습 기반 미세조정, 이때 $s_i$ 는 보상 함수)을 나타낼 수 있다.

미세조정 과정에서 LLM이 학습할 수 있는 이상적인(optimal) 행동은 각 질의에 대해 항상 정답을 출력하는 것이지만, 실제로는 미세조정 예시 모두에서 항상 이런 일이 발생하지는 않는다. 익숙한(familiar) 미세조정 예시의 경우, 사전학습된(pretrained) 모델의 표현(내부 표현)이 질의와 응답 사이의 유용한 연관성을 잘 나타내므로, 미세조정 과정에서 학습이 잘 이루어진다. 그러나 익숙하지 않은 예시(이 예시 집합을 $D_{\text{unf}}$ 로 표기)의 경우, 사전학습된 표현에서 이러한 유용한 연관성이 대체로 결여되어 있어 학습이 더 어렵다. 하지만 LLM이 각 익숙하지 않은 예시에 최적의 응답을 생성하기는 어려워도, 다음과 같은 방식으로 “지능적인 무작위 추측(intelligent blind guess)” $P_{\text{unf}}(y)$ 을 만들어 익숙하지 않은 예시 전체의 손실을 최소화할 수는 있다.

$P_{\text{unf}}(y) = \arg \min_{P(y)} \sum_{(x_i, s_i) \in D_{\text{unf}}} L(P(y), s_i)$

위 식에서 주목할 점은, 분포 $P_{\text{unf}}(y)$ 는 입력과는 무관(input-agnostic)하며, 오직 모델의 익숙하지 않은 미세조정 예시에만 의존한다는 점이다.

즉 unf 데이터샘플들에, 어떠한 일관된 응답을 해야 가장 Loss가 작을 것인가?

우리의 주요 가설은, LLM은 미세조정 과정에서 익숙하지 않은 예시들에 대한 응답으로 이 분포 $P_{\text{unf}}(y)$ 를 학습하며, 이후 테스트 단계에서 익숙하지 않은 입력을 받게 될 경우 이 응답을 기본적으로(default) 사용하게 된다는 것이다.

이러한 Punf(y)을 찾아서, 테스트시 이 응답을 기본적으로 사용하겠다

쉽게 풀어쓴 가설

언어 모델이 자신이 전혀 모르는 질문을 받으면, 미세조정(finetuning) 과정에서 비슷하게 자신이 몰랐던 질문들에 주어진 답변을 따라하려는 경향이 있다.
즉, 완전히 새로운 질문이 들어왔을 때, 모델은 예전에 학습한 비슷하게 생소했던 질문에 나왔던 답변을 그대로 가져와 사용하려 한다는 것이다.

쉬운 예시로 이해하기

예를 들어, 언어 모델이 "이순신 장군이 누구인가요?"라는 질문과 "앨런 튜링은 누구인가요?"라는 질문을 받은 뒤, 정답과 함께 학습했다고 가정해 봅시다. 그런데 이후 미세조정 과정에서 모델이 전혀 모르는 사람인 "김철수는 누구인가요?"라는 질문을 만나게 되었을 때, 모델은 제대로 된 정보를 학습하지 못할 수 있습니다.

이때 미세조정 데이터에서 생소한 질문("김철수는 누구인가요?")에 다음과 같은 두 가지 방식의 답을 줬다고 해 봅시다:

방식1: "김철수는 잘 알려지지 않은 사람입니다."
방식2: "김철수는 유명한 축구 선수입니다." (사실이 아님)

만약 미세조정 과정에서 위 방식2처럼 잘못된 사실을 많이 학습하면, 나중에 테스트할 때 모델이 또 다른 생소한 인물, 예를 들어 "홍길동은 누구인가요?"라는 질문을 받으면 또 다시 "홍길동은 유명한 축구 선수입니다." 같은 잘못된 환각된 답변을 생성할 가능성이 높아집니다.

반대로, 미세조정 과정에서 위 방식1처럼 불확실성이나 모름을 표현하는 답변을 학습하면, 이후 생소한 질문에도 "홍길동은 잘 알려지지 않은 인물입니다." 같은 더 바람직한 응답을 하게 됩니다.

한 문장 요약

언어 모델이 모르는 질문에 대한 응답을 미세조정할 때, 생소한 질문을 어떻게 다뤘느냐에 따라, 이후 새로운 생소한 질문에 모델이 생성하는 답변이 결정된다는 것이 본 논문의 핵심 가설입니다.

4.2 실험(Experiments)

지금부터 제안한 가설을 평가하기 위한 일련의 실험 결과를 제시한다. 실험의 목적은 다음 두 가지 사항을 확인하는 것이다:

모델이 익숙하지 않은 질의를 마주했을 때 실제로 위에서 정의한 분포인 $P_{\text{unf}}(y)$ 를 따라 응답하는지 여부.
이러한 모델의 예측 행동이 모델 미세조정 데이터에 존재하는 익숙하지 않은 예시들에 의해 결정되는지 여부.

이러한 목적을 위해, 다양한 모델들의 예측 행동을 분석하였는데, 이 모델들은 오직 익숙하지 않은 미세조정 예시들의 감독 방식(supervision method)만 다르게 설정하였으며, 나머지 학습 세부사항은 전부 동일하게 유지하였다. 실험은 지도학습 기반 미세조정(SFT), 강화학습(RL), 보상 모델(reward model) 미세조정을 포함한 다양한 유형의 미세조정 방법을 통해 수행하였다. 기본(pretrained) 모델로는 주로 Llama2 7B 모델(Touvron 외, 2023)을 사용하였으며, 추가적으로 부록(Appendix A)에 Mistral 7B 모델(Jiang 외, 2023)을 사용한 결과도 제시하였다.

모델의 출력 분포를 명확하게 관찰할 수 있도록 다지선다형 질의응답(MMLU; Hendrycks 외, 2020) 및 단답형 질의응답(TriviaQA; Joshi 외, 2017) 두 가지 과제를 사용하여 실험을 수행하였다. MMLU의 경우, 사전학습 모델에게 소수의 예시로 프롬프팅(few-shot prompting)을 수행한 뒤, 올바른 정답의 음의 로그 우도(negative log-likelihood)를 계산하여 생소함 점수(unfamiliarity score)를 얻었다. TriviaQA의 경우, 사전학습 모델을 소수의 예시와 함께 프롬프팅한 뒤, 12개의 응답을 샘플링하고 잘못된 응답의 수를 계산하여 생소함 점수를 얻었다. 이후 절에서는 긴 형식(long-form)의 생성 과제로 실험을 확장한다. 실험의 세부사항은 부록 C와 D에 기술하였다.

지도학습 기반 미세조정(Supervised finetuning)

먼저 지도학습 기반 미세조정(SFT)을 통해 입력 질의에 대한 응답을 예측하도록 학습된 모델의 예측 행동을 분석했다. SFT 학습 목표 하에서 $P_{\text{unf}}(y)$ 는 미세조정 데이터에 있는 익숙하지 않은 예시들의 목표 응답(target responses)의 분포와 동일하게 된다.

MMLU 실험에서는 두 가지 서로 다른 미세조정 데이터 분포를 고려했다. 첫 번째 분포는 익숙한 예시와 익숙하지 않은 예시 모두 A부터 D까지의 응답 토큰이 균등하게 분포되어 있다. 두 번째 분포는 익숙한 예시는 균등하게 분포되어 있지만, 익숙하지 않은 예시는 응답이 50% B와 50% C로 분포되어 있다. 따라서 첫 번째 데이터로 학습된 모델의 $P_{\text{unf}}(y)$ 는 A-D에 대해 균등 분포이며, 두 번째 데이터로 학습된 모델의 $P_{\text{unf}}(y)$ 는 50% B, 50% C이다. 그림 2 상단에서 이 두 모델의 예측 분포를 보여준다. 입력이 점점 생소해질수록(오른쪽 방향), 첫 번째 모델의 예측은 균등 분포로, 두 번째 모델의 예측은 50% B/50% C 분포로 가까워짐을 볼 수 있다.

TriviaQA 실험에서는 세 가지 다른 미세조정 데이터 분포를 고려했다. 첫 번째는 모든 예시가 각각의 질의에 대한 정답을 레이블로 가진다. 두 번째는 익숙한 예시는 정답을 가지지만, 익숙하지 않은 예시는 "모른다(I don’t know)"로 레이블링한다. 세 번째는 무작위 예시들의 일부를 "모른다"로 레이블링하고 나머지는 정답으로 레이블링하는데, 이때 "모른다"의 비율은 두 번째 분포와 동일하다. 이 데이터들로 미세조정된 모델들의 경우, $P_{\text{unf}}(y)$ 는 각각 환각된 답변, "모른다", 그리고 환각된 답변과 "모른다"의 혼합으로 나타난다. 그림 2 하단에서 이 모델들의 샘플 응답을 보여준다. 첫 번째와 두 번째 모델을 비교하면, 두 모델 모두 익숙한 질의에는 정답을 주로 예측했지만, 입력이 생소해짐에 따라 첫 번째 모델은 잘못된 답변이 증가한 반면, 두 번째 모델은 점점 "모른다"를 더 많이 생성하였다. 두 번째 모델과 세 번째 모델을 비교하면, 두 모델 모두 동일한 비율로 "모른다"를 학습했지만, 세 번째 모델은 테스트 질의의 생소함 정도와 무관하게 응답 분포가 거의 변화하지 않았음을 볼 수 있다.

이러한 결과는 SFT 모델이 테스트 입력이 생소해질 때 실제로 $P_{\text{unf}}(y)$ 로 수렴하며, 이러한 행동이 모델 미세조정 데이터의 익숙하지 않은 예시에 기인한다는 점을 보여준다.

강화학습(Reinforcement learning)

다음으로 PPO(Schulman 외, 2017)를 사용하여 RL로 학습된 모델의 예측 행동을 조사했다. RL 목표에서는 보상 함수(reward function)에 의해 $P_{\text{unf}}(y)$ 가 결정된다. 특히 $P_{\text{unf}}(y)$ 는 익숙하지 않은 예시에서 평균 보상을 최대화하는 행동 분포와 일치하며, 일반적으로 가장 위험이 적은(risk-averse) 행동이다. (이후 RL과 보상 모델 실험에 대한 자세한 설명은 논문 원문에서 이어진다.)

5장 핵심 요약: 긴 형태 생성(Long-Form Generation)에서 환각(hallucination) 제어하기

배경과 문제점

짧은 응답 과제에서는 미세조정 시, 모르는 질문을 "모른다"는 식으로 쉽게 처리 가능.
그러나 긴 형태의 응답(예: 인물 전기나 영화 줄거리)에서는 이런 방법을 그대로 적용하기 어려움.
RL(강화학습)을 통한 미세조정은 응답을 직접 학습시키는 대신, 모델의 생성된 응답에 보상(reward)을 부여하는 방식으로 긴 응답의 사실성을 높이는 데 유용.
하지만 RL 미세조정에 필수적인 보상 모델(reward model) 역시 환각을 일으킬 수 있으며, 이는 RL 미세조정 성능을 저하시킴.

주요 제안: 보수적 보상 모델 (Conservative Reward Model)

보상 모델의 환각 중에서도 특히 "보상을 과대평가(overestimate)"하는 것이 RL 미세조정에 치명적.
과대평가된 보상은 틀린 정보를 강화하는 등 악순환을 초래할 수 있음.
따라서, 환각을 완전히 없앨 수 없다면, 최소한 "보상을 과대평가하지 않는 보상 모델"이 필요함.
이를 위해, 모델 자신이 생성한 잘못된 응답을 이용하여 보상 모델을 훈련하면, 보상 모델이 익숙하지 않은 입력에 대해 높은 보상을 부여하지 않는 보수적(conservative)인 모델로 학습될 수 있음.

실험 및 결과

위키백과를 활용한 두 가지 긴 형태 과제 수행:
- 인물의 전기 생성 (WikiBios)
- 영화/도서 줄거리 생성 (WikiPlots)
표준적인 보상 모델과 보수적 보상 모델로 각각 RL 미세조정을 수행한 결과:

표준적인 보상 모델은 익숙하지 않은 입력에서 보상을 크게 과대평가함.
보수적 보상 모델은 익숙하지 않은 입력에서도 보상을 과대평가하지 않음.
따라서 보수적 보상 모델로 훈련된 RL 모델이 생성한 응답이 훨씬 더 정확하고, 잘못된 정보(환각)가 적었음.

장문 생성 시, 표준 보상 모델과 보수적(conservative) 보상 모델의 보상 예측을 비교.
표준 보상 모델은 낯선 입력에서 실제 보상보다 매우 높은 보상을 과대평가(overestimate)함.
보수적 보상 모델은 낯선 입력에서도 실제 보상과 비슷한 낮은 보상을 예측함.

결론 (6장)의 핵심

LLM은 익숙하지 않은 입력을 받으면, 미세조정 데이터에서 봤던 익숙하지 않은 예시의 응답을 모방함.
보상 모델의 환각을 전략적으로 제어하는 것이 긴 형태 생성의 RL 미세조정 효율성을 크게 높임.
본 연구를 통해 LLM의 환각 메커니즘을 더 잘 이해하고, 더 신뢰할 수 있는 LLM을 만드는 데 도움을 주기를 기대.

한계점 (7장)의 핵심

본 연구의 개념적 모델은 "완전히 익숙하지 않은 질의"에 대해서만 설명하지만, 현실에서는 완전히 익숙하거나 완전히 낯선 경우보다는 그 중간에 속하는 질의가 많음.
이런 부분적인 익숙함(partial familiarity)을 더 세부적으로 연구할 필요가 있음.
본 연구의 실험은 특정한 응용 분야(인물 전기 등)에 초점을 맞췄으므로, 더 일반적인 과제에서 적용성을 추가적으로 검증할 필요가 있음.

즉, 이 논문의 핵심 결론은 다음과 같습니다:

익숙하지 않은 질문에 대한 LLM의 환각은 미세조정 데이터의 익숙하지 않은 예시에서 비롯된다.
보수적 보상 모델을 사용하면 긴 형태 생성에서 RL을 통한 환각 제어가 훨씬 효과적이다.

네, 논문에서는 **보수적 보상 모델(Conservative Reward Model)**을 어떻게 학습했는지 자세히 설명하고 있습니다.

아래에 그 내용을 좀 더 명확하고 쉽게 풀어서 정리해 드리겠습니다.

📌 보수적 보상 모델의 학습 방법 (논문에 명시된 절차)

논문에서는 보수적 보상 모델을 학습하기 위해 다음과 같은 4단계 전략을 사용했습니다(논문 5.1절):

초기 SFT(지도학습 미세조정):
- 먼저 사전학습된 LLM 모델(예: Llama2-7B)을 SFT 방식으로 미세조정하여 원하는 과제(예: 인물 전기나 영화 줄거리)를 수행하도록 합니다.
응답 생성:
- SFT로 미세조정한 모델에게 다양한 프롬프트(질문)를 입력해, 그에 따른 응답을 생성하게 합니다.
- 이때 생성된 응답들은 모델이 원래 잘 알고 있는 정보에 대해서는 올바를 가능성이 높지만, 모델이 잘 모르는 정보("익숙하지 않은 정보")에 대해서는 잘못된 응답(환각)을 포함할 가능성이 높습니다.
생성된 응답에 대한 실제 보상(정답 여부) 라벨링:
- 생성된 응답이 정확한지, 틀린지를 판별하여 정답 여부를 실제로 라벨링합니다.
- 논문에서는 이 작업을 FActScore라는 자동 평가 도구를 이용하여 수행했습니다.
  - FActScore는 GPT-3.5 모델을 이용해 응답을 사실 단위로 쪼개서, 각 단위(atomic fact)의 정확도를 판별하는 자동화된 시스템입니다.
- 즉, 모델의 응답을 GPT-3.5가 쪼갠 뒤, 각 사실을 신뢰할 수 있는 외부 지식과 비교하여 정확한지 틀렸는지를 자동으로 판단합니다.
이 라벨링된 데이터를 이용하여 보상 모델 학습:
- 이렇게 판별된 응답(정확한 응답과 틀린 응답들)은 다시 새로운 데이터가 되어 보상 모델을 훈련시킵니다.
- 모델이 생성한 응답 중 틀린 응답은 대부분 모델이 잘 모르는 주제에서 나왔을 것이므로, 결과적으로 이 보상 모델은 "모르는 주제에서는 응답을 믿지 않고 낮은 점수를 주는 법"을 배우게 됩니다.

🎯 중요한 질문에 대한 답변

"LLM 자신이 생성한 응답 중 어떤 것이 옳고 틀린지를 어떻게 알 수 있는가?"

논문의 방법: 자동화된 외부 평가 도구(FActScore, GPT-3.5 기반의 평가 도구)를 이용해 응답을 분석하여, 각 응답이 정확한지 여부를 판단합니다.
즉, LLM이 스스로 생성한 응답을 그대로 신뢰하는 것이 아니라, 제3의 독립된 평가 시스템을 활용하여 사실 검증(fact-checking)을 수행한 뒤, 이를 데이터로 만들어 보상 모델을 훈련시키는 것입니다.

이러한 방식을 통해, 모델의 환각 가능성을 줄이면서 보상 모델의 정확성과 신뢰성을 높이게 됩니다.

📝 논문에서 사용된 실제 예시로 쉽게 이해하기:

질문: "앨런 튜링은 누구인가요?"
- 모델의 응답: "앨런 튜링은 컴퓨터 과학자이며, 현대 컴퓨터의 아버지로 불립니다." → 정확한 응답
- 모델의 응답: "앨런 튜링은 유명한 축구선수입니다." → 부정확한(환각) 응답
생성된 응답을 자동 평가 도구(FActScore)가 평가하여:
- 첫 번째 응답은 높은 점수(정답 라벨)를 부여하고,
- 두 번째 응답은 낮은 점수(오답 라벨)를 부여합니다.

이렇게 평가된 데이터를 사용하여 보상 모델을 학습하면, 이 보상 모델은 익숙하지 않은 질문("김철수는 누구인가요?")에 대한 잘못된 응답("김철수는 유명한 축구선수입니다.")에 대해서도 낮은 점수를 부여하는 보수적인 평가를 하도록 자연스럽게 학습됩니다.

✨ 최종 정리 (보수적 보상 모델의 핵심):

LLM 자신이 생성한 응답 → 독립적인 평가 시스템(FActScore)이 정확도 판단 → 보상 모델을 학습.
이를 통해 보상 모델이 "모르는 내용에서는 보상을 부풀리지 않고 낮게 주도록" 보수적으로 학습됩니다.

이렇게 학습된 보수적 보상 모델은 결국 RL 과정에서 환각(hallucination)을 효과적으로 제어할 수 있게 됩니다.

Reference

https://aclanthology.org/2025.naacl-long.183.pdf

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-289, Unfamiliar Finetuning Examples Control How Language Models Hallucinate, NAACL 2025