◼ Comment

학습될 모델(PLM)이 알고 있는 데이터를 미리 구분하는 것은 아니고, 매 학습때마다 정답토큰과 예측토큰과 비교해서 One hot label의 분포를 [REG] 스페셜 토큰에 일부 할당하는 것이다.
즉 직관적으로 PLM이 현재 맞춰야할 토큰(정답 토큰)을 가장 높은 확률로 예측한다면 그대로 학습하되

정답 토큰이 후순위라면, P_label/P_max만큼 [REG]에 일부 할당하고, 나머지는 label token에 할당해서 학습하겠다는 것
추가적으로 regularization이 학습에 들어감
인퍼런스할때는 decoding 전략을 제시하는것이 있음

근데 평가 부분이 살짝 애매한게

이 방법이 효과적이라는 것을, 일반 QA 데이터세트에서 성능 향상임을 보여줌

근데 이때 [REG]의 생성을 막고 응답을 생성하게함.
뭐 그건 그렇다칠 수 있는데, 그러면 모르는 데이터에 대해서도 결국 뭔가 그럴싸한 말을 하는것이 아닌가?

그래서 [REG]도 생성할 수 있게하고 하고, 이것이 응답이 끝나기전에 한번이라도 나오면 그냥 회피하는 것으로 평가도 시도함

여기서 문제는 일반 QA 데이터세트가 아닌, 모델이 알고 모르는 데이터를 따로 만들어서 평가를 진행함
그랬을때 알고있는 데이터는 [REG]의 생성확률이 낮은편이고 모르는 데이터는 [REG]의 생성확률이 높은편임
비교모델은 이 데이터세트에서 r-tuning과 해서 성능이 더 좋고 rejection rate도 높다고 보여줌
이 앎과 모르는 데이터세트는 plm으로 맞춘 데이터 / 못맞춘 데이터로 선별했다는데 자세한 내용은 없음

개인적으로 위처럼 평가하면 문제는, 모델이 실제 질문이 들어왔을때 [REG]을 생성을 허용할것인가 말것인가가 문제가 됨

[REG]을 생성 허용 안한다면 성능은 살짝 올라간다지만 결국 Refusal할 기준이 사라지는것이고
[REG]을 생성 허용하면, refusal 기준이 생기지만, 성능자체가 비교가 안됨
정당한 비교는 [REG] 생성허용하고 일반 QA에서 성능을 봐야한다고 봄

Abstract

대규모 언어 모델(LLMs)은 심각한 환각(hallucination) 문제로 잘 알려져 있다. 그 주요 원인 중 하나는 사전 훈련(pre-training) 단계와 지도적 미세조정(supervised fine-tuning) 단계 간의 지식 불일치(knowledge misalignment)에 있다. 미세조정 단계에서 마주하게 되는 생소한 지식이 모델로 하여금 자체가 가진 파라미터화된 지식에 근거하지 않은 사실들을 생성하도록 부추길 수 있다.

이를 해결하기 위해, 우리는 새로운 훈련 목표인 SEAL(Selective Abstention Learning)을 제안한다. 이 방식은 모델이 특별한 [REJ] 토큰을 이용하여 원하는 지식 분포와 불일치하는 토큰을 선택적으로 거부하는 법을 배우게 한다. 이를 통해 모델이 무조건적으로 정답에 높은 확률을 부여하지 않고, 지식 부족을 인정할 수 있는 대안을 제공한다. 또한 훈련 시 배운 [REJ] 확률을 활용하여 추론 과정에서 불확실한 예측을 페널티로 제약하는 정규화된 디코딩(decoding) 목표를 제안한다.

다양한 크기의 세 가지 LLM 모델을 활용하여 여섯 가지 단답형(short-form) 및 장문형(long-form) 질의응답(QA) 데이터셋에서 실험한 결과, 본 방법이 지식 불일치로 인한 환각을 효과적으로 완화시킨다는 것이 입증되었다. 추가 분석을 통해 제안한 방식이 답변 거부(answer refusal) 시나리오에도 효과적으로 적용될 수 있으며, 모델의 지시 따르기 능력(instruction-following capabilities)도 효과적으로 유지됨을 확인하였다.

1 서론

대규모 언어 모델(Large Language Models, LLMs)(OpenAI, 2023; AI@Meta, 2024)은 대규모의 사전 훈련(pre-training) 코퍼스를 통해 사실적 지식을 효과적으로 포착하는 뛰어난 능력을 보여주었다. 그러나 여전히 사실적이지 않은 내용을 생성하는 경향이 두드러지는데, 이를 환각(hallucination)이라고 한다(Huang 외, 2025b). 이 문제는 LLM이 실제 응용 분야에 적용되는 데 있어 중대한 도전 과제를 제기한다.

최근 연구에 따르면, 환각 현상의 주요 원인 중 하나는 사전 훈련 단계(pre-training stage)와 지도적 미세조정 단계(supervised fine-tuning stage, SFT) 간의 지식 불일치(knowledge misalignment)이다(Schulman, 2023; Kang 외, 2024; Gekhman 외, 2024). 사후 훈련(post-training) 단계에서 미세조정은 사전 훈련 단계에서 습득한 지식을 완벽하게 활성화하는 데 필수적이다(Zhou 외, 2023a). 그러나 미세조정 과정에서 기존의 LLM 내부 지식과 불일치하는 새로운 사실적 지식을 접할 수 있다.

그림 1에서 보듯이, 이러한 새로운 지식은 모델이 기존 파라미터에 내장된 지식과 무관한 사실을 생성하도록 유도하여(Liu 외, 2024b), 환각 문제를 일으킨다(Huang 외, 2025a, b).

지식 불일치를 완화하기 위한 최근의 노력은 주로 두 가지 방향으로 이루어진다.

한 가지 접근법은 모델이 알지 못하는 데이터 샘플(model-unknown samples)을 미리 필터링하여, 오직 모델이 알고 있는 데이터(model-known samples)만으로 미세조정하는 방법이다(Ghosal 외, 2024).

이 방식은 효과적이긴 하지만, 데이터 샘플들이 모델에 따라 달라질 수 있어 정확하게 주석(annotation)하기 어렵다.

또 다른 접근법은 사전 훈련된 모델 자체를 활용해 훈련 데이터를 생성하여, 새로운 지식을 도입하는 것을 피하는 것이다(Tian 외, 2024; Lin 외, 2024a).

그러나 이 방식은 생성된 데이터의 품질을 확실하게 검증할 수 없기 때문에, 낮은 품질의 데이터가 생성되거나 추가적인 환각을 유발할 수 있다.

본 연구에서는 SEAL(Selective Abstention Learning)이라는 새로운 훈련 목표를 제안한다. SEAL은 모델이 원하는 지식 분포와 불일치하는 토큰을 선택적으로 거부할 수 있도록 절제(abstention) 메커니즘을 적용한다(§3.2).

구체적으로 우리는 특별한 [REJ] 토큰을 도입하였으며, 모델이 정답 토큰 예측에 실패할 때마다 목표 확률(target probability)의 일부를 예측된 로짓(logits)에 따라 [REJ] 토큰으로 전환한다.

이로 인해 모델이 맹목적으로 모든 정답에 높은 확률을 할당하지 않고, 자신의 지식 부족을 인정할 수 있는 선택지를 갖게 된다. 이 과정에서 [REJ] 토큰은 모델 예측에서 발생하는 지식 불일치로 인한 불확실성을 포착하게 된다. 이를 기반으로 우리는 절제-인지 디코딩(abstention-aware decoding)을 제안하여, [REJ] 토큰이 나타내는 불확실성을 탐색 기반(search-based) 디코딩 전략에 포함시킨다(§3.3). 각 디코딩 단계에서 불확실한 예측에 페널티를 주어, 모델이 더 자신 있고 사실에 부합하는 방향으로 결과를 생성하도록 유도한다.

SEAL의 효과성을 입증하기 위해, 우리는 크기가 다른 세 개의 대표적인 LLM 모델을 사용하여, 단답형과 장문형 질의응답(QA) 데이터셋 여섯 개에 대한 광범위한 실험을 수행하였다. 실험 결과, SEAL은 지식 불일치로 인해 유발되는 환각 문제를 효과적으로 완화시킨다는 것이 확인되었다. 기존의 최대 우도 추정(MLE) 방식과 비교해, 제안한 방법은 단답형 QA에서 8.59%, 장문형 QA에서 10.80%만큼 LLM의 사실성(factuality)을 향상시켰으며, 모델의 지시 따르기 능력을 유지하였다. 추가적인 분석을 통해 [REJ] 토큰이 효과적인 불확실성 보정(calibration)을 보여줌을 확인하였고, 이는 답변 거부(answer refusal) 시나리오에도 확장 가능하였다.

2 관련 연구

사실성 환각 문제 완화 (Factuality Hallucination Mitigation)

대규모 언어 모델(LLMs)의 사실성 환각 문제(factuality hallucination)는 모델이 생성하는 내용이 기존에 확립된 세계 지식(world knowledge)에서 벗어나는 현상을 말한다(Huang 외, 2025b). 이러한 환각을 유발하는 요인은 매우 다양하며, LLM의 전반적인 라이프사이클(lifecycle)에 걸쳐 나타난다. 이는 사전 훈련(pre-training) 단계(Allen-Zhu & Li, 2024)에서부터 지도적 미세조정(supervised fine-tuning) 단계(Schulman, 2023), 정렬(alignment) 단계(Lin 외, 2024a) 및 디코딩(decoding) 단계(Li 외, 2023a)까지 다양한 단계에서 발생할 수 있다. 많은 연구가 지속적 사전 훈련(continual pre-training)(Chang 외, 2024), 불확실성 보정(uncertainty calibration)(Cohen 외, 2024), 사실성 정렬(factuality alignment)(Tian 외, 2024), 대비적 디코딩(contrastive decoding)(Chuang 외, 2024; Huang 외, 2024a,b)과 같은 방식으로 사실성 향상을 위한 여러 접근법을 탐구하였다. 본 연구에서는 미세조정 단계에서 접하게 되는 낯선 사실적 지식으로 인해 발생하는 환각을 완화하는 데 중점을 두고 있으며, 이는 최근 많은 주목을 받고 있는 분야이다(Kang 외, 2024; Gekhman 외, 2024).

미세조정 단계에서의 사실성 향상 (Improving Factuality during Fine-tuning)

최근 연구(Kang 외, 2024)는 모델이 낯선 지식(unfamiliar knowledge)을 접하는 분포가 실제로 LLM의 환각 방식(hallucination)을 결정한다는 점을 밝혔다. 이러한 발견은 미세조정 단계에서 낯선 지식의 도입을 피하는 데 초점을 둔 일련의 연구를 촉진했다. 이 중 일부 연구는 미세조정 과정에서 낯선 지식을 지닌 데이터를 걸러내거나(Ghosal 외, 2024), 혹은 베이스 모델(base model) 자체를 활용하여 지도적 미세조정 데이터를 생성함으로써(Lin 외, 2024a) 새로운 지식을 도입하지 않도록 하는 방식이다. 보다 최근의 연구에서 Liu 외(2024b)는 미세조정 과정에서 기술(skill) 학습과 지식(knowledge) 학습을 분리하여, 합성 데이터를 통해 LLM이 보다 잘 근거를 갖춘(grounded) 응답을 생성하도록 유도했다. 본 연구는 이러한 방법들과 달리 더욱 근본적인 관점에서 접근하여, 훈련 과정 중 모델이 선택적으로 응답을 거부(abstention)하는 메커니즘을 갖추도록 함으로써 전통적인 최대우도추정(MLE) 목표의 맹목적 모방 문제를 효과적으로 완화한다.

3 방법론

이 절에서는 우리가 제안하는 방법론을 소개하며, 먼저 문제 정의(problem formulation)를 제시한 뒤, 지식 불일치로 인해 발생하는 환각 문제를 완화하기 위한 방법을 설명한다. 전체적인 개요는 그림 2에 나타나 있다.

3.1 문제 정의

사전 훈련된(pre-trained) 베이스 모델(base model)을 ( $M_\theta$ ) 라 하고, 미세조정(fine-tuning) 데이터셋을 ( D ) 라 할 때, 우리의 목표는 사실 기반 질의응답(factual QA) 작업에 대해 ( M_\theta ) 를 미세조정하는 것이다.

데이터셋 ( D ) 는 질의응답(QA) 쌍들의 집합으로 구성되며, ( $D = {(q_i, a_i)}_{i=1}^{N}$ ) 로 나타낼 수 있다. 여기서 각 질문 ( $q_i$ ) 는 지식을 묻는 질문(knowledge-seeking question)이며, ( $a_i$ ) 는 그 질문에 해당하는 정답(ground-truth answer)이다. 각 QA 쌍은 미리 정의된 프롬프트(prompt) 템플릿 ( $f(\cdot)$ ) 을 사용하여 구조화된 지시-응답(instruction-response) 쌍인 ( (x, y) ) 로 변환된다. 우리의 실험 환경은 단답형(short-form)과 장문형(long-form) QA 데이터셋을 모두 포함하며, 이에 따라 별도의 프롬프트 템플릿 세트를 설계하였다 (자세한 사항은 부록 A 참조).

표준적인 지도적 미세조정(supervised fine-tuning, SFT) 방법은 각 지시 ( x ) 에 대해 정답 ( y ) 의 우도(likelihood)를 최대화하는 최대 우도 추정(maximum likelihood estimation, MLE) 목표를 가지며, 이는 아래 식(1)과 같이 나타낼 수 있다. 이는 교차 엔트로피 손실(cross-entropy loss) 목표와 수학적으로 동등하며, 목표 분포는 원핫 벡터(one-hot vector)로 모델링된다.

여기서 ( $y_t$ ) 는 사전에 정의된 어휘 집합(vocabulary) ( V ) 에서 선택된 정답 토큰(token)이다.

3.2 절제 튜닝 (Abstention Tuning)

기존의 최대 우도 추정(MLE) 목표는 모든 정답 토큰들의 우도를 최대화하는 데 목적이 있다. 그러나 미세조정 샘플 ( D ) 의 사실적 지식과 LLM ( $M_{\theta}$ ) 내부에 파라미터화된(parametric) 지식 사이에는 차이가 존재할 수 있다. 따라서 베이스 모델(base model)의 지식 범위를 벗어나는 샘플들이 존재하게 된다. 이와 같은 낯선(unknown) 샘플들을 강제로 모델에 맞추는 경우, 모델이 기존에 학습된 지식에 근거하지 않은 사실을 만들어내도록 유도할 수 있으며, 이는 환각(hallucination)을 초래한다.

사전 훈련(pre-training) 단계에서 토큰 선택 전략(token selection strategies)(Cohen 외, 2024; Lin 외, 2024b)에서 영감을 얻어, 지도적 미세조정(supervised fine-tuning)을 위한 동적인 절제 메커니즘(abstention mechanism)을 갖춘 훈련 목표를 제안한다. 이 메커니즘은 원하는 지식 분포와 일치하지 않는 토큰들을 모델이 선택적으로 거부할 수 있도록 한다.

구체적으로, 우리는 특별한 토큰인 [REJ]를 어휘집합(vocabulary) ( V ) 에 추가한다. 모델이 정답 토큰을 예측하지 못할 때마다, 예측된 확률 분포에 따라 목표 분포(target distribution)를 동적으로 조정하여 일정 비율 ( $\alpha_t$ ) 의 확률을 [REJ] 토큰에 할당한다. 이를 수식으로 나타내면 다음과 같다:

직관적으로, 모델이 정답 토큰을 정확하게 예측하면 ($\alpha_t$)는 0이 되고, 모델 예측과 정답 간 큰 차이가 존재하면 1에 가까워지게 된다. 이때, ($\alpha_t$)는 다음과 같이 계산된다:

여기서 ( $p_{\theta}(y_t|y_{<t}, x)$ ) 는 정답 토큰의 확률을 나타내며, ($\max_{w} p_{\theta}(w|y_{<t}, x)$) 는 현재 예측된 확률 분포에서 가장 높은 확률을 나타낸다. ($\tau$) 는 [REJ] 토큰에 할당될 수 있는 목표 확률의 상한(upper bound)을 설정하는 값으로, [0, 1] 범위 내에 존재한다. 우리의 실험에서는 ($\tau$ = 0.5)로 설정하였다.

즉 원래의 정답은 5번째 토큰이라고 하자. REG 토큰은 7번째라고 하자.
모델의 예측은 6번째 토큰을 0.6으로 가장 높게 예측하고, 정답 5번째 토큰을 0.2로 예측했다고 하면
alpha= 0.5*(1-1/3)=1/3=0.333 이나온다
그러면 정답 분포는 [0, 0, 0, 0, 0.667, 0, 0.333] 이런식으로 구성된다는 것
근데 실제 데이터는 토큰 한개를 예측하는게 아니라 여러 개를 예측하게 되는것이고, 매 토큰별로 이런식으로 정답 분포를 계산해서 학습하게 된다.

이에 따라 기존의 교차 엔트로피 손실(cross-entropy loss)은 다음과 같이 수정된다:

이러한 상황에서, 정답을 정확히 예측하거나 또는 [REJ] 토큰을 선택하여 적절히 예측을 거부하는 것이 전체 손실을 감소시킬 수 있다. 이를 통해 모델은 맹목적으로 모든 정답에 높은 확률을 부여하는 대신, 자신이 지닌 지식이 불충분하다는 사실을 적절히 인정할 수 있게 된다.

또한 모델이 정답을 정확히 예측할 수 있는 상황에서도 과도하게 [REJ] 토큰을 예측하여 손실을 감소시키는 것을 방지하기 위해, 올바른 예측이 가능한 상황에서 [REJ]를 선택하는 것을 제약하는 추가적인 정규화(regularization) 항을 도입하였다:

Icorrect의 판별은 해당 위치의 가장 높은 확률로 예측한 토큰이 정답 토큰이랑 같을때를 의미하는 것 같음
이 경우에는, loss가 작아짐=1-p가 커짐=p가 작아짐, 즉 REJ을 너무 크게 예측하지 못하도록 regularization을 넣어두는 것

최종적으로, 절제 메커니즘과 정규화 항을 결합한 손실 함수는 다음과 같다:

3.3 절제 인지 디코딩 (Abstention-aware Decoding)

미세조정(fine-tuning) 과정에서 [REJ] 토큰은 모델 예측에서 나타나는 지식 불일치로 인한 불확실성을 흡수하는 역할을 하는 플레이스홀더(placeholder)로서 작용한다. 이 방식에서 낯선(unknown) 샘플은 효과적으로 "쓰레기를 보물로 바꾸는" 역할을 수행하며, [REJ] 토큰은 모델의 불확실성 정도를 나타내는 역할을 하게 된다. 또한 우리는 추가 분석을 통해 [REJ] 토큰의 확률과 사실성(factuality) 간에 상당히 유의미한 상관관계가 있음을 확인하였다(섹션 §6 참조). 즉, 높은 [REJ] 확률은 환각된(hallucinated) 콘텐츠일 가능성이 더 높다는 것을 의미한다.

보다 사실적인(factual) 답변 생성을 촉진하기 위해 우리는 절제 인지 디코딩(abstention-aware decoding) 방식을 도입한다. 구체적으로, [REJ] 토큰이 나타내는 불확실성 정보를 탐색 기반(search-based) 디코딩 전략(예: 빔 서치(beam-search))에 통합하여, 각 디코딩 단계에서 불확실한 예측을 억제하는 페널티를 적용한다. 이 전략은 모델이 더 신뢰할 수 있고 사실에 부합하는 생성 경로를 따르도록 안내한다(Cao 외, 2022; Zhao 외, 2024). 불확실성 페널티를 포함한 디코딩 목표(objective)는 다음과 같이 공식화된다:

여기서 ( P(y) )는 다음과 같이 정의된다:

각 디코딩 단계 ( t )에서 [REJ] 토큰은 오직 정규화(regularization)를 위한 목적으로만 사용되며, 실제로 출력되지는 않는다. 여기서 ($\lambda$)는 적용되는 페널티의 강도를 나타내며, 우리의 실험에서는 빔 크기(beam size) ( B )는 8로 설정하고 ($\lambda$)는 1.0으로 설정하였다.

4 실험 (Experiments)

본 절에서는 SEAL의 효율성을 평가하기 위해 수행한 실험 설정에 대해 자세히 설명한다. SEAL은 지식 불일치(knowledge misalignment) 문제를 완화하는 것을 목표로 한다. 우선, 모델이 알고 있는 데이터(model-known)와 모르는 데이터(model-unknown)가 포함된 단답형(short-form) 및 장문형(long-form) QA 데이터셋을 각각 구성하여 모델을 학습시킨 후, 분포 외(out-of-distribution) 설정에서 성능을 평가하였다.

4.1 데이터셋 (Datasets)

이 데이터셋들의 개요는 논문 내 Table 8에 정리되어 있다.

학습 데이터셋 (Training Datasets)
사실 기반의 QA 태스크를 위한 고품질 학습 데이터를 확보하기 위해, 우리는 신뢰할 수 있는 지식 기반으로서 2024년 6월 1일자 위키피디아 스냅샷을 활용했다. 이후 고성능의 오픈 소스 LLM을 사용해 위키피디아 콘텐츠에 기반한 QA 쌍을 생성하였다.

특히 단답형 QA 과제를 위해서는 위키 페이지의 요약 내용을 기반으로 소수 예시를 제시하는 프롬프팅(few-shot prompting)을 통해 LLM이 단답형 QA 쌍을 생성하게 하였다. 반면, 장문형 QA 과제에서는 위키피디아 페이지의 요약 내용을 그대로 장문 응답으로 채택하고, 이에 상응하는 지시문 또는 질문을 생성하도록 LLM을 활용하였다.

위키페이지를 기반으로 QA 데이터세트를 LLM으로 만들어 학습했다는 것

모델이 이미 알고 있는 샘플(model-known samples)은 모델 정확도 또는 위키피디아 페이지의 인기도(popularity)를 통해 결정하였다. 이러한 프로세스를 통해 총 10,000개의 단답형 QA 쌍과 2,000개의 장문형 QA 쌍이 확보되었다. 학습 데이터 구성의 세부 사항은 Appendix A에 기술되어 있다.

평가 데이터셋 (Evaluation Datasets)
보다 포괄적인 평가를 수행하기 위해, 네 개의 단답형 QA 데이터셋과 두 개의 장문형 QA 데이터셋을 포함하는 총 여섯 개의 대표적인 사실성(factuality) 벤치마크를 사용하였다.

단답형 QA로는 TriviaQA(Joshi et al., 2017), Natural Questions(NQ; Kwiatkowski et al., 2019), PopQA(Mallen et al., 2023), SimpleQA(Wei et al., 2024a)를 사용하였다.
장문형 QA 평가에는 Biography(Min et al., 2023)와 LongFact(Wei et al., 2024b)를 사용하였다.

이 데이터셋들의 자세한 설명과 예시는 Appendix B에 제공된다.

4.2 평가 (Evaluation)

단답형 QA 과제 (short-form QA task)
단답형 QA 과제에서는 LLM의 환각(hallucination) 정도를 측정하기 위해 정확도(Accuracy, Acc.)를 활용하였다. 특히 TriviaQA, NQ, PopQA의 경우, Mallen et al. (2023)의 방식을 따라 모델이 생성한 응답에 정답이 포함되어 있는지를 기준으로 정답 여부를 평가하였다. SimpleQA의 경우 Wei et al. (2024a)에서 제안한 방식을 따라 LLM을 평가자(LLM-as-a-judge)로 사용하여 모델의 응답과 정답을 비교하였다.

장문형 QA 과제 (long-form QA task)
장문형 QA 평가의 경우 Biography 데이터셋에 대해 질문당 평균 정확한 주장 수(# Correct claims averaged per question, # Correct)와 FActScore(Min et al., 2023)를 보고하였다. FActScore는 장문 응답의 사실성(factuality)을 평가하기 위해 응답을 원자적 주장(atomic claims)으로 나눈 다음 검색된(retrieved) 위키피디아 단락과 비교하여 검증하는 방식으로 설계된 지표이다.

LongFact 데이터셋의 경우, Wei et al. (2024b)의 평가 지표를 따랐으며, 정밀도(Precision, Prec.), 재현율(Recall@48, R@48), 그리고 두 지표를 결합한 F1 점수(F1@48)를 보고하였다.

평가 지표에 대한 더 자세한 내용은 Appendix C를 참조하라.

4.3 베이스라인 (Baselines)

우리는 SEAL 방법의 일반화 가능성을 다양한 모델에서 검증하기 위해 다음과 같은 베이스라인들과 비교 평가를 진행하였다. 평가를 위해 대표적인 세 가지 LLM을 선택하였다: Llama-3-8B (AI@Meta, 2024), Mistral-7B-v0.3 (Jiang et al., 2023), Mistral-Nemo-12B (Mistral, 2024). 각 베이스라인의 세부 구현 사항은 Appendix D에서 확인할 수 있다.

Supervised Fine-Tuning (SFT)
사전학습된 모델을 직접 구성된 학습 데이터셋으로 미세조정(fine-tuning)한다. 주어진 질문에 대한 정답의 가능성을 최대화하는 것을 목표로 한다.
POPULAR (Ghosal et al., 2024)
모델이 이미 알고 있는 하위 데이터셋(subset)만을 이용하여 미세조정한다. 단답형 QA의 경우, 사전학습된 모델의 응답 정확도를 기반으로 선택된 하위 데이터를 이용한다. 장문형 QA의 경우, 위키피디아 페이지의 평균 월간 조회수(average monthly page views)를 판단 기준으로 사용한다 (Mallen et al., 2023).
이 논문에서 근데 데이터 앎을 판단하는 방법은 너무 대충한거 같긴한데.. pretraining 코퍼스에 위키피디아 페이지가 들어가니까, 여기에 자주 등장한 코퍼스에 대해서만 판단한것
FLAME (Lin et al., 2024a)
사전학습된 LLM을 감독(supervision)으로 활용하여 주어진 질문에 대한 응답을 우선 생성한 후, 새롭게 사실적 지식을 추가로 도입하지 않는 방식으로 데이터를 구성한다. 이렇게 생성된 자체 응답(self-generated responses)을 정답으로 사용하여 SFT를 수행한다.
FACTTUNE (Tian et al., 2024)
SFT로 미세조정된 모델 위에 DPO(Direct Preference Optimization, Rafailov et al., 2023)를 적용하여 모델의 사실성(factuality)을 향상시킨다. 이를 위해 사전학습된 모델의 샘플링된 출력을 사용해 선호도 쌍(preference pairs)을 구성하고, 정답과의 비교 또는 FActScore를 통해 주석(annotation)을 수행한다.

4.4 구현 세부사항 (Implementation Details)

모든 실험은 8개의 NVIDIA A100-80GB GPU를 사용하여 수행하였으며, 다중 GPU 분산 학습을 위해 Deepspeed Stage 3를 적용하고, Bfloat16 정밀도를 활성화하였다.

공정한 비교를 위해 모든 SFT 기반 베이스라인은 학습률(learning rate)을 5e-6으로 설정하여 총 3 epoch 동안 학습하였다. DPO 기반 베이스라인의 경우는 학습률을 5e-7로 설정하고 2 epoch 동안 학습하였다.

단답형 QA의 경우, 전체 배치 크기(total batch size)를 128로 설정하였으며, 입력 시퀀스 최대 길이는 128 토큰으로 제한하였다. 장문형 QA의 경우, 배치 크기는 32로 설정하였고 입력 시퀀스 최대 길이는 1024 토큰으로 제한하였다.

모든 베이스라인 결과의 일관성을 보장하기 위해 Greedy decoding을 사용하였다. 더 자세한 구현 세부사항은 Appendix E를 참고하라.

5 결과 (Results)

5.1 주요 결과 (Main Results)

단답형(short-form) 및 장문형(long-form) QA 작업에 대한 세 가지 LLM의 주요 실험 결과를 논문 내 Table 1에 제시하였다.

SEAL은 새로운 지식으로 인해 발생한 간극을 효과적으로 좁히는 데 탁월한 성능을 보였다. Table 1에서 볼 수 있듯이, SFT 과정에서 모델이 접한 미지(unknown)의 샘플들은 사전학습 모델(pre-trained models)의 사실성(factuality)에 부정적 영향을 미쳤으며, 이는 특히 장문형 QA 상황에서 두드러졌다. 예를 들어, Llama-3-8B 모델은 단답형 QA 벤치마크에서 평균 정확도가 4.23% 감소했으며, 장문형 QA의 경우 FActScore는 24.51%, F1@48은 6.32% 하락했다. 이러한 발견은 최근 연구(Gekhman et al., 2024)의 결과와 일치하며, 이를 장문형 설정으로까지 확장한 것이다. 특히 주목할 점은, 기존의 SFT 학습 방식과 비교하여 SEAL은 여섯 가지 벤치마크 모두에서 상당한 개선 효과를 거두었다는 것이다. 예를 들어, Llama-3-8B 모델에서는 단답형 QA의 평균 성능을 10.98% 향상시켰고, 장문형 QA에서는 FActScore가 19.24%(24.95 → 29.75), F1@48 점수가 4.17%(64.52 → 67.21) 증가하였다. 이는 SEAL이 원하는 지식 분포와 불일치하는 토큰을 선택적으로 거부함으로써 지식 격차를 효과적으로 좁혔다는 것을 입증한다.

SEAL은 다양한 모델과 과제에 대해 뛰어난 일반화 성능을 보였다. 평가된 모든 모델에 걸쳐 SEAL은 일관되게 성능 개선을 달성했으며, 이는 다양한 모델에 대한 높은 일반화 능력을 나타낸다. 또한 SEAL은 모든 강력한 베이스라인보다 뛰어난 성능을 보여, 새로운 지식으로 인해 유발된 환각(hallucination)을 완화하는 데 있어 최신(state-of-the-art) 성능을 달성했다. 특히 가장 성능이 뛰어난 베이스라인인 POPULAR의 경우 단답형 QA에서는 효과적이었지만, 장문형 QA에서는 일관된 성능을 유지하기 어려웠으며, 오히려 환각 현상을 악화시키는 경우도 있었다(Llama-3-8B의 경우 LongFact에서 64.52 → 63.08로 감소). 이러한 성능 저하는 복잡한 세부 사항을 포함하는 장문형 QA의 경우, 샘플 수준에서 모델이 알고 있는 데이터를 필터링하는 데 어려움이 있음을 시사한다. 이와 대조적으로, 우리 방법(SEAL)은 모델의 예측된 지식 분포의 불일치에 따라 선택적으로 토큰 수준에서 손실을 거부하는 방식을 적용하기 때문에, 복잡한 장문형 생성 시나리오에서도 탁월한 적응성과 견고성을 보였다.

근데 단지 정확도 및 Factscore는 모델이 정답을 잘 내뱉는지를 보는 것이고, 모르는것을 잘 거부하는지는 평가가 안되는 것인가?
정확도 계산할때는 [REJ] 생성못하게 제한을 거는것인가? (부록B에 그렇다고 나와있음)
아래의 refusal 실험할때는 [REJ]가 EOS 토큰전에 한번이라도 나오면 거부하는 식?

5.2 제거 실험 (Ablation Study)

SEAL 방법의 핵심 구성 요소들의 효율성을 검증하기 위해 광범위한 제거 실험(ablation study)을 수행하였다. 이를 위해 다음과 같은 두 가지 변형(variants)을 설계했다:

w/o Decoding: abstention-aware decoding을 일반적인 greedy decoding 전략으로 대체하였다.
w/o Tuning: 추가로 abstention tuning을 제거하여, 원래의 vanilla MLE 목적 함수로 되돌아가게 했다.

이러한 변형들과 SEAL을 비교한 결과는 논문의 Table 2에 나타나 있으며, 모든 변형이 SEAL보다 성능이 떨어짐을 명확히 확인할 수 있다. 이는 SEAL의 각 구성 요소가 효과적이라는 것을 나타낸다. 보다 상세한 제거 실험 분석은 아래와 같다.

상한선(upper bound) τ의 튜닝
SEAL은 [REJ] 토큰에 할당되는 목표 확률(target probability)의 상한선을 설정하는 하이퍼파라미터 τ를 사용한다. 일반적으로 높은 τ 값은 모델이 [REJ] 토큰을 더 많이 예측하도록 유도하며, 이는 모델이 잘못된 지식(misaligned knowledge)에 과적합(overfitting) 되는 것을 방지한다. 반대로 τ 값을 낮추면 점차 교차 엔트로피 손실(cross-entropy loss)로 축소된다. τ가 환각(hallucination)을 감소시키는 데 미치는 영향을 조사하기 위해 τ 값을 0.3에서 0.9까지 변화시키면서 네 가지 단답형 QA 데이터셋에 걸쳐 세 모델의 평균 정확도에 대한 영향을 평가하였다.

그 결과 (논문의 Figure 3 (a)에 나타난 바와 같이), 다양한 설정 중에서 τ = 0.5가 가장 좋은 선택으로 나타났으며, 이는 모델이 하위 작업 학습을 소홀히 하지 않으면서도 혼동되는 예측에 대해 충분한 [REJ] 예측 신호를 제공하는 균형점임을 시사한다.

정규화 손실(regularization loss)의 효과
abstention tuning의 또 다른 핵심 요소는 정규화 손실(regularization loss)로, 이는 모델이 정확한 예측이 가능한 상황에서도 [REJ] 토큰을 과도하게 예측하는 것을 방지하는 역할을 한다. 이 정규화 항의 효과성을 검증하기 위해 fine-tuning 과정에서 정규화 항을 생략한 변형을 추가로 평가하였다. 그 결과는 논문의 Figure 3 (b)에 제시되어 있으며, 정규화 항이 없을 때 세 모델 모두 성능이 저하되었다. 이는 정규화 손실이 적절한 목표 확률(target probability)의 할당을 유도하고, [REJ] 토큰을 모델의 실제 불확실성에 더 잘 맞추도록 하는 데 중요한 역할을 함을 보여준다.

abstention-aware decoding의 효과
abstention-aware decoding의 우수성을 추가적으로 입증하기 위해 LLM의 사실성을 강화하도록 설계된 다른 디코딩 전략들과 비교하였다:

DoLa (Chuang et al., 2024): 대비층(contrastive layers)의 로짓(logit)을 최종층과 비교하여 로짓을 보정하는 방법. DoLa-low와 DoLa-high의 두 가지 변형을 고려하였다. DoLa-low는 초반 절반 층을 최종 층과 대비시키고, DoLa-high는 후반 절반 층을 최종 층과 대비시킨다.
Activation-decoding (Chen et al., 2024): 중간층의 컨텍스트 활성화(context activations)의 예리함(sharpness)을 다음 토큰 예측 보정에 사용하는 방법이다.

이 비교의 결과는 논문의 Table 3에 나타나 있으며, abstention tuning 이후 적용한 abstention-aware decoding은 세 가지 모델에서 네 개의 단답형 QA 작업에 대해 다른 사실성 강화 디코딩 전략들을 일관되게 능가했다.

빔 크기(beam size, B)와 penalty 항(λ)에 대한 추가적인 제거 실험에 대한 세부 사항은 Appendix F.3에 제공되어 있다.

6 분석 (Analysis)

이 절에서는 SEAL 방법에 대한 보다 깊이 있는 분석을 제시하고, 그 잠재적 응용 분야 및 실제 지시 따르기(instruction-following) 작업에서의 영향과 적응성을 평가하였다.

환각 응답과 [REJ] 토큰의 캘리브레이션 (Calibration)
우리 방법의 효율성은 [REJ] 토큰이 환각 응답과 얼마나 잘 조정(calibrate)되는지에 크게 의존한다. 이상적으로는 모델이 모르는 질문에 대해 [REJ] 토큰의 높은 확률을 보이면서 잠재적인 지식 불일치를 나타내는 동시에, 알려진 질문에는 낮은 확률을 유지하여 정확한 응답 생성을 보존하는 것을 목표로 한다.

이를 검증하기 위해 PopQA에서 모델이 알고 있는(model-known) 데이터와 모르는(model-unknown) 데이터 각 250개씩 총 500개의 데이터를 표본 추출했다.

아니 이거를 어떻게 추출했냐니까?
Llama-3-8B 모델이 특정 질문에 정확한 답을 하면 → "모델이 아는 질문"
Llama-3-8B 모델이 특정 질문에 틀린 답을 하거나 답을 하지 못하면 → "모델이 모르는 질문"

이후 질문을 빈칸 형식(cloze format)으로 변환하고(e.g., "질문: George Rankin의 직업은 무엇인가요? 답변: George Rankin은 ______입니다"), abstention tuning으로 미세 조정된 모델이 [REJ]를 다음 예측 토큰으로 예측할 확률을 계산했다. 그 결과(논문 Figure 4 참고), [REJ] 토큰의 확률은 두 시나리오를 뚜렷하게 구분했다.

구체적으로 모델이 질문을 아는 경우 [REJ] 확률은 매우 낮았으며(75.2%의 경우 확률이 0.1 이하),
반대로 모르는 질문의 경우 [REJ] 확률이 현저히 증가하여 77.8%의 경우에서 상위 3개의 예측 토큰 내에 [REJ]가 등장했다.
이는 [REJ] 토큰이 기대대로 작동하여 환각 응답과 효과적으로 조정됨을 보여준다.
그림4의 왼쪽: 모델이 모르는 경우, [REJ]가 나올 확률이 이리저리 분포되어있음
그림4의 오른쪽: 모델이 아는 경우, [REJ]가 나올 확률이 0쪽에 분포되어있음

응답 거부(answer refusal) 시나리오로의 확장
더 사실적 생성을 유도하기 위한 [REJ] 토큰의 효과적 캘리브레이션을 바탕으로, 본 방법을 응답 거부 시나리오에도 확장하여 LLM이 자신의 지식 범위를 벗어난 질문에 대해 적절히 응답을 거부할 수 있도록 하였다.

구체적으로 greedy decoding 전략을 사용하여 모델이 [REJ] 토큰을 정상적으로 생성하도록 허용한다. [REJ] 토큰이 생성되면 불확실한 생성을 종료하고, 모델이 다시 처음부터 응답 거부 템플릿을 재생성하도록 한다. 생성이 완료되면 [REJ] 토큰을 포함한 이전의 모든 토큰은 삭제된 뒤 사용자에게 응답을 제시한다(논문의 Table 4 참조).

즉 응답에 중간에 [REJ]나오면 I am not sure을 내뱉도록 바꾼다는 것인데..

이 방식의 효율성을 검증하기 위해 다양한 τ 값에서 본 방법을 R-TUNING(Zhang et al., 2024)과 비교하였다. R-TUNING은 모델이 알고 있거나 모르는 데이터를 기반으로 모델이 알지 못하는 질문에 응답하지 않도록 학습시키는 방법이다. 평가에서는 모델이 알고 있는 질문을 정확하게 답변한 정확도와, 모르는 질문을 거부한 비율(rejection rate)이라는 두 가지 측면에서 접근하였다.

결과(Figure 5 참고)에 따르면 우리 방법의 거부율은 τ가 증가할수록 지속적으로 증가하여 모델이 아는 질문과 모르는 질문 간의 균형을 잘 맞추었으며, R-TUNING 방법을 두 측면 모두에서 일관되게 능가했다.

지시 따르기(instruction following) 능력에 미치는 영향
더 나아가 본 학습 패러다임을 다양한 지시 미세조정 데이터셋에 적용하여 지시 따르기 시나리오에서의 적응력을 평가하였다. 구체적으로는 UltraChat(Ding et al., 2023), ShareGPT, WizardLM(Xu et al., 2024)에서 고품질 데이터를 선별하여 구성된 Deita 데이터셋(Liu et al., 2024a)을 사용해 모델을 미세조정하였다. AlpacaEval(Li et al., 2023b), IFEval(Zhou et al., 2023b) 등 널리 사용되는 지시 따르기 벤치마크 두 가지를 사용하여 모델을 평가하였다. AlpacaEval의 경우, 기본 평가자(weighted_alpaca_eval_gpt4_turbo)를 사용하였고, 이 평가자는 높은 인간 평가자와의 일치를 보이며, 평가 시 원시 승률(raw win rate)을 보고하였다. IFEval의 경우, instruction_loose 평가 지표를 사용하였다.

평가 결과(Table 5 참고), SEAL이 지시 따르기 능력을 효과적으로 유지하고 있음이 확인되었으며, 이는 다양한 다운스트림 태스크에서의 높은 적응력을 입증한다.

7 결론 (Conclusion)

본 논문에서는 SEAL 이라는 새로운 학습 목적 함수를 제안하였다. SEAL은 특별한 토큰인 [REJ] 를 이용해, 대형 언어 모델(LLM)이 원하는 지식 분포와 불일치(misalignment)하는 토큰을 선택적으로 거부(abstention)할 수 있도록 한다. 또한 SEAL은 [REJ] 토큰 내에 담긴 불확실성(uncertainty)을 이용하여 불확실한 예측에 페널티를 주는 방식으로 사실성(factuality)을 더욱 향상시킨다.

광범위한 실험을 통해 SEAL이 단답형(short-form) 및 장문형(long-form) QA 과제 모두에서 의미 있는 성능 향상을 달성하였으며, 특히 SFT 과정에서 새롭게 마주치는 사실적 지식으로 인해 발생하는 모델의 환각(hallucination) 현상을 효과적으로 완화한다는 것을 입증하였다.

추가적인 분석에서는 SEAL 방법이 응답 거부(answer refusal) 시나리오로 확장될 수 있음을 보여주었고, 또한 다양한 지시 따르기(instruction-following) 과제에서 모델의 성능을 유지하는 데 효과적이라는 점을 검증하였다.

Reference

https://aclanthology.org/2025.acl-long.1199.pdf

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-303, Alleviating Hallucinations from Knowledge Misalignment in Large Language Models via Selective Abstention Learning, ACL 2025