◼ Comment

개인적으로는 좀 별로인 느낌이 든 논문임
DoLA와 거의 유사한거 같긴한데, 조금 더 강화한 느낌이다
핵심은 2가지이다

어떤 layer을 contrastive layer로 사용할 것인가?
마지막 layer의 logit을 그대로 사용안하고 Extrapolation을 한다

어떤 layer을 contrastive layer (즉 Negative layer)로 사용할 것인가?

이 물음에 대해 데이터별로 다르게 선택한다
주어진 데이터세트를 활용하여 엔트로피 변화율과 JSD을 활용하여 적절한 layer을 고른다
데이터 테스크 성격에 따라 다른 경향을 보여주고 그에 따른 contrastive layer을 앞부분으로 결정할지 뒷부분으로 결정하는데..
최종적으로 layer은 엔트로피값만을 이용하긴함
근데 어쨌든 뭔가 설명을 실험결과가 잘나오는 것에 끼워 맞춘거 같다
왜냐하면 실제로 테스크별로 같은 경향인거 같고 큰 차이가 있지 않은것 같기 때문
그리고 무엇보다 이 방법은, 주어진 데이터가 있어야하고 테스트할 데이터가 뭔지 알고 있어야 한다는 점에서 별로인거 같음

마지막 layer의 logit을 그대로 사용안하고 Extrapolation을 한다

이 말은 마지막 layer의 logit이 꼭 신뢰할 수 있는 수준이 아닐 수 있기 때문이라는 생각에서 출발한다
만약에 토큰A가 마지막 layer로 갈수록 logit값이 증가하고 있고
토큰B는 마지막 layer로 갈수록 logit값이 작아지고 있는데
마지막 layer에서는 토큰B > 토큰A이라고 하자
그럼 next layer가 있다면 토큰A가 더 logit이 커졌을텐데? 라는 생각을 하는 것이다
그래서 이 next layer logit을 예측하는 간단한 선형모델을 학습시켜서 extrapolation 하는 것이다
근데 이것은 매 데이터마다 학습을 해줘야하는거 같은 큰 단점이 있음
그리고 이게 작동한다는게 직관적으로 이상한거 같음. 왜냐하면 작동한다면 굳이 llm의 layer을 늘릴필요가 왜 있나?라는 의문이 들기 때문

어쨌든 핵심 위 2가지인데, 2가지다 썩 그럴싸하다고 느껴지지 않는다

뭔가 잘되는 데이터, 잘되는 모델에 대해서만 실험하고
말도 그럴싸하게 꾸민거 같은 느낌이 든다

나였으면 reject 줬을거 같음

Abstract

대규모 언어 모델(LLMs)은 뛰어난 자연어 처리 능력을 보이지만, 학습 데이터의 실제 내용과 무관한 내용을 생성하는 환각(hallucination) 문제를 겪습니다. 최근 연구들은 추론 시 디코딩 기법을 개선하여 사실성을 높이는 데 주력하고 있으며, 이는 LLM이 지닌 계층적 사실 지식 표현 구조를 활용하여 예측 분포를 조작하는 방식입니다.

현재 최첨단 기법들은 하위 계층의 early-exit 분포와 최종 계층의 분포를 대조하여, 모델의 순방향 처리 과정에서 나타나는 사실 관련 정보를 활용합니다. 그러나 이러한 방법들은 보통 최종 계층이 가장 신뢰할 수 있다는 가정에 기반하고 있으며, 하위 계층의 선택 역시 최종 계층에 의존한다는 한계가 있습니다.

이 논문에서는 다음 두 가지 주요 기여를 제안합니다:

**최종 계층을 넘어선 토큰 확률의 외삽(extrapolation)**을 통해, 사실성과 관련된 대조 정보를 더 정확히 반영할 수 있는 방법을 도입합니다.
계층별 엔트로피(entropy)를 활용한 하위 계층 선택 전략을 도입하여, 하위 계층 선택 과정을 최종 계층으로부터 독립시킵니다.

실험 결과, 제안된 방법은 다양한 데이터셋에서 기존 SOTA를 크게 상회하는 성능을 보였습니다. 분석 결과, 프롬프트의 유형에 따라 적절한 계층 선택 전략이 달라진다는 점도 확인되었습니다. 소스 코드는 GitHub에 공개될 예정입니다.

1 Introduction

대규모 언어 모델(LLMs)은 자연어 처리 작업에서 인상적인 성능을 보이지만(Brown et al., 2020; OpenAI, 2023), 훈련 데이터의 현실적 사실과 일치하지 않는 내용, 즉 **환각(hallucination)**을 생성하는 경향이 있습니다(Ji et al., 2023). 이러한 환각은 모델의 실제 활용에 큰 제약이 되며(Guerreiro et al., 2023), LLM의 성능이 확장됨에 따라 이 문제는 더욱 중요해지고 있습니다. 따라서 환각을 억제하는 것은 신뢰할 수 있는 인공지능(AI)의 핵심 과제로 부각되고 있습니다.

환각은 파이프라인 전반에 걸쳐 존재할 수 있는 다양한 결함에서 기인할 수 있으며, 여기에는 부정확하거나 편향된 데이터, 근거 및 일관성 확보의 부재, 그리고 최적화되지 않은 지식 통합 과정 등이 포함됩니다(Li et al., 2022b; Liška et al., 2022; Chang et al., 2019; Yin et al., 2023). 이를 해결하기 위한 주요 연구 방향으로는, 사실성 보장을 위한 생성 제약(Shi et al., 2023), 인과 추론 능력(Kıcıman et al., 2023), 그리고 조절 가능한 투명한 지식 활용 방식(Touvron et al., 2023) 등이 제안되고 있습니다.

최근에는 추론 단계에서 사실성을 향상시키기 위한 디코딩 기법에 대한 관심이 높아지고 있습니다.

Chuang et al. (2023)은 LLM이 내재적으로 학습한 계층적 사실 지식 표현 구조를 활용하였으며,
하위 계층이 표면적인 패턴을, 상위 계층이 보다 의미론적인 정보를 포착한다는 관찰에 기반해, Li et al. (2023b)의 아이디어를 확장한 DoLa 전략을 제안했습니다.
이 방법은 하위(또는 중간) 계층과 최종 계층의 로짓 분포를 동적으로 선택하고 대조함으로써 사실성 강화를 도모합니다.
계층을 따라 분포가 점진적으로 정교해지는 현상을 활용하여, 사실성을 저해하는 환각을 줄일 수 있음을 보였습니다.

그러나 이러한 접근법은 최종 계층의 분포가 가장 성숙(mature)하다는 가정에 의존하며, 하위 계층 선택 또한 최종 계층과의 상대적 위치에 기반한다는 한계가 있습니다.

이는 특히 최종 계층 자체가 미성숙하거나 부정확할 경우 적절하지 않을 수 있습니다.
DoLA 한계 지적하는 것, 밑의 layer은 현재 position이 꼭 마지막 position이 아닐 수 있는데, 그거가 같다는 가정이 있는 것도 문제일 수 있겠네

이 문제를 해결하기 위해 본 논문에서는 **추론 단계에서의 로짓 외삽(logit extrapolation)**을 제안합니다.

구체적으로, 특정 중요 토큰들의 확률이 마지막 몇 개 계층에 걸쳐 단조롭게 증가(또는 감소)하는 패턴을 이용하여, 최종 분포를 인위적으로 더 정교하게 발전시킬 수 있는 방법입니다.

또한, 사실성과 불확실성 지표(예: 엔트로피) 간의 상관관계를 이용합니다.

일반적으로 사실적인 문장을 구성하는 토큰은 높은 확률과 낮은 엔트로피를 보이며, 환각을 유발하는 토큰은 더 평탄한(분산된) 분포와 높은 엔트로피를 가지는 경향이 있습니다.

이에 대한 Ref가 있었으면 좋았을 듯
이를 기반으로, 계층별 토큰 엔트로피를 하위 계층 선택의 기준으로 활용함으로써, 최종 계층에 의존하지 않는 선택 전략을 제시합니다.
이로 인해, 미성숙한 최종 계층에 기반한 오류 전파를 줄일 수 있습니다.

Figure 1에서 제시된 예시에서는, 모델이 "Arizona"라는 정답에 대해 확신이 없고 "Florida"를 출력하려는 경향이 보이는 상황에서, 엔트로피 기반의 외삽 및 선택 전략을 통해 보다 날카롭고 정확한 분포를 형성하여, 사실적인 응답("Arizona")을 도출할 수 있었음을 보여줍니다.

제안된 기법은 TruthfulQA(Lin et al., 2022), FACTOR(Muhlgay et al., 2023)와 같은 사실성 평가 벤치마크에서 기존 방법들을 큰 폭으로 상회하였으며, StrategyQA(Geva et al., 2021), GSM8K(Cobbe et al., 2021)와 같은 사실 기반 추론 작업에서도 뛰어난 성능을 입증하였습니다.

이러한 성과는 제안된 방법이 단순한 사실 회상(factual recall)을 넘어, 정확한 중간 추론에 기반한 복잡한 추론 체인까지 효과적으로 다룰 수 있음을 보여줍니다.

이상의 결과는 본 논문에서 제안한 접근법이 환각을 억제하고 사실성을 높이기 위한 효과적인 추론 단계 디코딩 전략으로서의 가능성을 입증함을 시사합니다.

2 선행 지식

2.1 대조 디코딩과 사실성

대규모 언어 모델은 일반적으로 임베딩 층과 N개의 스택된 계층, 그리고 다음 토큰의 확률을 예측하는 선형 변환층 φ(., .)를 포함한다.

N개의 layer가 있다는 말

주어진 토큰 시퀀스 $x_p = \{x_1, ..., x_{t-1} \}$ 에 대해, 임베딩 층은 이를 벡터 시퀀스 $h^0 = \{ h^{(0)}_1, ..., h^{(0)}_{t-1} \}$ 로 변환한다. 이후 이 벡터들은 각 트랜스포머 계층을 순차적으로 통과하며 처리되며, j번째 계층의 출력을 $h^j$ 라고 한다. 그러면 선형 어휘 헤드 φ(., .)는 다음 토큰 $x_t$ 의 확률을 다음과 같이 예측한다:

$\begin{matrix} \end{matrix}$

$t번째 위치에서의 마지막 N layer의 hidden state값에 linear matrix곱하고 softmax취한게 next token의 확률 집합이 된다는 말$

여기서 $x_t \in V$ 는 어휘 집합이다. 최근 Chuang et al. (2023)은 Li et al. (2023b)에 기반하여, 미성숙한 별도 모델이 아닌 **최종 계층 $N$ **과 조기 계층 $j$ 간의 출력을 대조하는 대조 디코딩(contrastive decoding) 방법을 제안하였다. 대조 목적 함수는 다음과 같이 정의된다:

$\begin{matrix} \end{matrix}$

여기서 $q(x_t | x_{<t}) = \text{softmax}(\phi(h^j_t)^T)$ 는 하위 트랜스포머 계층 $j < N$ 에서 유도된 토큰 예측 확률이며, 이는 early-exit이라 불린다.

조기 계층 $j$ 는 성숙한 계층과 후보 조기 계층 간의 **Jensen-Shannon divergence (JSD)**를 계산하는 동적 선택 지표 $d(., .)$ 에 따라 선택된다.

사전 정의된 트랜스포머 계층 버킷 $K$ (예: 11층부터 20층까지 포함하는 두 번째 버킷 (10, 20]) 내에서 가장 큰 JSD를 가진 계층이 최종 조기 계층으로 선택된다.

2.2 Entropy Across Transformer Layers

불확실성 기반 지표(예: 엔트로피 $H$ )와 모델의 사실성 간에는 상관관계가 존재함이 Manakul et al.의 연구에서 확인되었다. 사실적인 문장은 일반적으로 높은 확률과 낮은 엔트로피를 가지는 토큰으로 구성되는 반면, 환각은 평탄한 확률 분포와 높은 불확실성을 가진 위치에서 발생할 가능성이 크다.

하지만 본 연구에서는 프롬프트의 유형에 따라 상이한 거동이 나타남을 관찰하였다. 구체적으로 두 가지 유형은 다음과 같다:

사실 기반 프롬프트 $Q_f$ : 단일한 사실 정보가 요구되는 유형
- 예: “Alan Greenspan은 1987년부터 2006년까지 어느 미국 정부 기관의 수장이었는가?”
- 해당 유형은 TriviaQA, Natural Questions(NQ) 등의 데이터셋에 포함된다.
개방형 프롬프트 $Q_s$ : 정답이 흔히 사용되는 학습 데이터에 존재하지 않을 수 있는 유형
- 예: “스포츠에서의 숙련도 향상이 학교 성적 향상에 도움이 되는가?”
- TruthfulQA 데이터셋에 포함

이러한 프롬프트 유형을 분석하기 위해, TruthfulQA, TriviaQA, NQ에서 각각 100개의 프롬프트를 샘플링하여 LLaMA 7B 모델 계층 전반의 엔트로피 변화를 관찰하였다. 각 프롬프트는 <질문> <정답> 형식으로 연결되며, 분석은 정답 토큰의 확률만을 기반으로 수행되었다.

Figure 2에는 다음 세 가지 지표가 트랜스포머 계층에 따라 시각화되어 있다:

엔트로피 변화율
최종 계층과의 JSD(Jensen-Shannon divergence)

다음과 같은 주요 관찰 결과가 도출되었다:

TruthfulQA의 경우, 상위 계층에서 엔트로피 변화율이 더 크며, 이는 모델이 마지막 몇 개 계층에 이르기까지도 예측을 계속해서 변화시키고 있음을 시사한다. 반면, 다른 데이터셋들에서는 엔트로피 변화가 완만하며, 이는 모델이 초기 계층에서 이미 예측을 결정했음을 나타낸다.
JSD 관련 시각화에서는 TruthfulQA의 하위 계층에서 최종 계층과의 JSD 편차가 매우 크며, 이는 이러한 하위 계층들이 **사실 기반 데이터셋의 하위 계층보다 훨씬 더 미성숙(more premature)**함을 의미한다. 따라서 이들 계층은 임베딩 계층에 가까워지고, 그만큼 contrastive decoding 효과는 낮을 수 있다.

이러한 분석에 기반하여 우리는 다음과 같은 가설을 제시한다:

TruthfulQA와 같은 개방형 프롬프트의 경우, 계층들이 사실 기반 프롬프트에 비해 전반적으로 더 미성숙할 가능성이 높다.
따라서 확률 분포가 진실된 방향으로 이동하기 시작하는 지점, 즉 엔트로피가 최소가 되는 상위 계층이 대조 계층으로 적합하다.
반대로, TriviaQA와 같은 사실 기반 프롬프트에서는 더 이른 계층에서도 충분한 성숙도가 확보되므로, 보다 낮은 계층이 적합한 대조 계층이 될 수 있다.

질문 유형에 따라 contrastive layer로 어디를 선택해야할지, 기존 데이터로 한번 확인했다는 것

(질문; 정답)으로 LLM에게 주고 정답 토큰에 대한 엔트로피 변화율과 최종 계층과의 JSD을 계산했다는 것이다

JSD가 크면 최종 계층과 다른 분포를 가진다는 의미

엔트로피가 낮으면 모델이 확신을 가진다는 의미 (분포가 뾰족하다는 의미)

따라서 JSD가 크면서 엔트로피가 낮은 지점이 이상적인데,

TruthfulQA는 엔트로피가 최소가 되는 상위(뒤쪽) 계층이 적절
TriviaQA는 엔트로피가 비교적 낮기 때문에 JSD가 차이가 큰 낮은(앞쪽) 계층이 적적

근데 막상 그림보면 그렇게 차이가 나는거 같지도 않은거 같은데 약간 끼워맞추기식 설명아닌가 싶긴함

3 방법론

3.1 동적 대조 계층 선택 (Dynamic Contrasting Layer Selection)

대조 디코딩(contrastive decoding)의 효과를 극대화하기 위해, 우리는 트랜스포머 계층 내 특정 범위에서 early-exit 분포의 엔트로피를 기반으로 **대조 계층(contrast layer)**을 동적으로 선택한다. 수학적으로, 토큰 단위의 엔트로피는 다음과 같이 표현된다:

$\begin{matrix} \end{matrix}$

여기서 $p_{ij}(. | x_{<t})$ 는 $i$ 번째 트랜스포머 계층의 $j$ 번째 토큰 위치에서의 다음 토큰 생성 확률 분포를 의미한다.

우리는 최대 엔트로피와 최소 엔트로피를 각각의 선택 기준으로 사용한다. 최적의 대조 계층 $I$ 는 다음 방식으로 선택된다:

$\begin{matrix} \end{matrix}$

여기서

$Q$ 는 주어진 프롬프트
$Q_s$ 는 개방형 프롬프트(open-ended prompt)의 집합(자세한 내용은 §2.2 참고)
$K$ 는 탐색 대상이 되는 트랜스포머 계층의 범위이다.

LLaMA 기반 모델의 경우, Chuang et al. (2023)의 설정을 따라, 모델 크기에 따라 전체 계층을 2~4개의 bucket으로 나누고, 해당 bucket 내에서 계층을 선택한다.

이하하기론, JSD는 마지막 layer가 신뢰도가 제일 높은 계층이라고 가정하고 계산하는 것인데, 실제로는 마지막 layer가 신뢰도가 꼭 최선은 아닐 수 있기 때문에 엔트로피로만 contrastive layer을 결정한다

개방형 프롬프트인 경우는, 전반적으로 모델이 학습하기 어려워서 엔트로피가 비교적 높다. 따라서 엔트로피가 작아진 지점이(argmin) 사실성 정보를 표현할 수 있기 때문에 이를 contrastive layer로 써야 효과적이라는 거 같음
그게 아니면, 모델이 학습하기 쉽기 때문에 엔트로피가 비교적 낮다. 따라서 마지막 layer(실제로는 마지막 layer가 아닐 수도 있음)와 대조적인 성격을 띌려면 오히려 argmax로 엔트로피가 큰 지점을 찾아야 한다는 것
아무리봐도 너무 때려맞추기식 설명 같고 직관적으로 납득하기 어려움ㅋㅋ그림2를 봐도 큰 차이가 있는거 같지도 않고

3.2 로짓 외삽 (Logit Extrapolation)

기존 방법들은 최종 계층이 가장 성숙한 계층이라는 가정에 기반한다. 그러나 실제로는 이 계층에서도 더 정제될 여지가 존재할 수 있다. 일반적으로 모델의 표현을 더 성숙하게 만들기 위해서는 계층을 더 쌓는 것이 필요하지만, 이는 비효율적이다.

이에 우리는 간단하면서도 효과적인 방법으로, 몇 개의 핵심 토큰에 대해 확률을 선형 회귀(linear regression)를 통해 외삽하는 전략을 제안한다. 전체 알고리즘은 아래와 같다:

알고리즘 1: 로짓 외삽 (Logits Extrapolation)

입력:

마지막 $L$ 개의 트랜스포머 계층의 hidden states $H_1..L$
외삽 트리거 임계값 $\alpha$
상위 토큰 개수 $t_k$
외삽 시작 계층 $E_s$ , 종료 계층 $E_l$ , 추론 계층 $E_i$

출력:

필요 시 외삽된 확률 $\text{prob}_L'$

외삽 과정은 다음과 같은 흐름으로 이뤄진다:

마지막 3개 계층에서 상위 토큰의 확률 변화가 급격할 경우, 외삽을 시작한다.
선형적으로 증가하거나 감소하는 패턴을 가진 토큰들만 유지하고 나머지는 제거한다.
선택된 토큰들의 확률과 계층 번호를 이용해 선형 회귀 모델 $M_{lr}$ 을 학습한다.
이 모델을 이용해 추론 계층 $E_i$ 에서의 예측 확률을 외삽한다.
외삽된 상위 $k$ 개 확률이 여전히 상위로 유지되도록 Normalize_TopK 과정을 통해 분포를 정규화한다.

$\begin{matrix} \end{matrix}$

이후 외삽된 $P_k$ 는 원래의 $\text{prob}_L$ 과 병합되어 최종 확률 $\text{prob}_L'$ 을 구성한다.

로직은 다음과 같다

먼저 마지막 3개층의 JSD을 통해 변화율을 살펴본다

L-2 -> L-1보다 L-1 -> L로의 분포변화가 특정 threholsd보다 크다면 이거는 마지막 layer을 신뢰도 있는 층으로 간주하지 않고 그 다음 층까지 살펴보겠다는 의미이다

따라서 마지막 몇 개층의 layer의 Logit들을 살펴본다 (몇개 층을 살펴볼지는 파라미터인거 같음 Es~El)

예로 3개층을 살펴본다고 하면
A토큰의 Logit이 0.1 -> 0.2 -> 0.25
B토큰의 Logit이 0.3 -> 0.28 -> 0.26
C토큰의 Logit이 0.1 -> 0.15 -> 0.12
이렇다고 해보자
원래라면 B토큰이 선택됐겠으나, 점점 감소하기 때문에 실질적으로 다음 layer가 존재한다면 A가 B보다 더 높은 확률을 가졌을 것으로 예상한다는 것
다음 층에서의 logit을 예측해야하기 때문에 간단한 선형모델을 학습한다
여기서 C토큰은 단조증가나, 단조감소가 아니기 때문에 학습데이터에서 제거하고
A,B와 같이 단조증가, 단조감소 logit으로 선형 layer을 학습하여 next layer에서의 Logit을 예측해서 사용한다

이것도 뭔가 너무 이상함ㅋㅋ 짜 맞추기하는 느낌인데...

이게 잘된다는 것도 이상한데, 매번 선형 layer을 학습해야하는것도 코스트 측면이나 확장성이 딸리는거 같음
이게 된다면 그냥 transformer layer을 왜쌓나? 그냥 매번 다음 layer을 예측하도록 하면 되지

3.3 선형 회귀 모델의 학습 (Training Linear Regression Model)

선형 회귀 모델 $M_{lr}$ 을 학습하는 주된 목표는, 지정된 외삽 시작 계층( $E_s$ )부터 종료 계층( $E_l$ )까지의 각 계층에서 수집한 상위 $k (t_k)$ 개 어휘 토큰의 확률( $p_k$ )을 이용해 외삽 모델을 만드는 것이다.

매 추론 단계(time step)에서 선형 회귀 모델 학습을 위한 훈련 데이터는 각 토큰별로 계층 번호( $n_j$ ; 예를 들어 LLaMA-7B에서는 0부터 32까지 범위)와 해당 계층에서의 특정 토큰 $k_i$ 의 확률( $p_{k_i}^j$ )로 구성된다.

즉, 훈련 데이터는 다음과 같이 나타낼 수 있다:

$[(n_{E_s}, p_{k_i}^{E_s}), ..., (n_j, p_{k_i}^j), ..., (n_{E_l}, p_{k_i}^{E_l})]_{i=0}^{t_k}$

회귀 모델은 토큰 개수 $t_k$ 만큼을 한 배치(batch) 로 묶어서 학습 및 추론한다.

추론 시에는 미리 결정된 추론 계층( $E_i$ )을 선형 회귀 모델에 입력으로 전달하여 각 토큰의 외삽된 확률을 얻는다. 추가적인 세부 사항은 §C에 기술되어 있다.

3.4 대조 목적함수 (Contrastive Objective)

최적의 대조 계층(contrasting layer, $I$ ) 과 최종 성숙 계층(mature layer)을 선택했다면, 이제 최종 성숙 계층에서 중요한 토큰의 확률을 추가로 외삽하여 더욱 강조하고, 동시에 대조 계층의 출력을 약화시켜 contrast 효과를 극대화한다.

구체적으로, Li et al.(2023b)의 대조 디코딩(Contrastive Decoding) 방식을 따라, 우리는 성숙 계층의 로그 확률에서 대조 계층의 로그 확률을 뺀 값을 사용하여 최종적인 디코딩을 위한 대조 목적함수 $L_{CD}$ 를 정의한다:

$\begin{matrix} \end{matrix}$

여기서:

$p(x_t|x_{<t})$ : 최종 성숙 계층(mature layer)의 확률 분포
$q_I(x_t|x_{<t})$ : 선택된 대조 계층(contrasting layer)의 확률 분포
Extrapolate(.): 앞서 제시한 알고리즘 1을 호출하여, 최종 성숙 계층에서의 토큰 확률을 외삽하여 더 성숙한 확률 분포를 얻는 함수이다.

log 분자/분모니까 결국 빼는 개념으로 진행되는 것. 근데 weight를 곱해주지 않고 그냥 단순히 뺄셈으로 하나본데?

또한, Li et al.(2023b)에서 제안한 적응적 타당성 제약(adaptive plausibility constraint) 전략을 그대로 도입한다. 이는 다음과 같은 집합 $C_a(x_t|x_{<t})$ 을 정의한다:

$\begin{matrix} \end{matrix}$

여기서:

$\beta$ : [0, 1] 범위의 하이퍼 파라미터로, 최종 성숙 계층에서의 토큰 분포를 절단(truncate)하여 일정 기준 이상의 확률을 가진 토큰만을 선택하게 해준다.

추가적인 세부 사항은 §A에서 설명한다.

4 실험 방법

4.1 태스크 (Tasks)

본 연구에서는 두 가지 유형의 태스크를 고려한다. 첫 번째는 다지선다(Multiple-choice) 문제이고, 두 번째는 개방형 생성(Open-ended generation) 태스크이다.

첫 번째 태스크로는 TruthfulQA 데이터셋의 다지선다(Multiple-choice) 분할과 FACTOR 데이터셋의 위키(Wiki) 분할을 활용한다. 이 태스크에서는 선택지 각각의 로그 확률(log probability)을 계산하여 최종 점수를 도출하고 이를 기반으로 정답을 결정한다.

두 번째 태스크에서는 TruthfulQA 데이터셋의 생성(Generation) 분할을 사용한다. 생성된 응답은 GPT-3 기반으로 파인튜닝된 모델을 이용해 진실성(Truthfulness)과 정보성(Informativeness)에 따라 평가하며, 평가는 기존 TruthfulQA 논문에서 제시된 절차를 엄격히 따른다.

추가로 본 연구에서는 StrategyQA와 GSM8K 데이터셋도 사용한다. 이 데이터셋들은 연쇄 추론(chain-of-thought reasoning)이 요구되며, 생성된 답변에 올바른 키워드가 포함된 경우 정답으로 간주한다.

4.2 베이스라인 (Baselines)

다음 베이스라인을 실험에 사용한다.

Original decoding: Greedy 디코딩 방식을 사용한다.
Inference Time Intervention (ITI) (Li et al., 2023a): TruthfulQA로 학습된 선형 분류기를 사용하여 사실적 질문 답변에 우수한 성능을 보이는 헤드(head)의 집합을 식별하고 이를 기반으로 추론 시점에 개입(intervention)을 수행한다. 모델로는 LLaMA-7B를 사용한다.
Contrastive Decoding (CD): Chuang et al.(2023)에서 제안한 대비적 디코딩 방식을 따른다. 여기서 LLaMA 7B 모델을 amateur 모델로 설정하고, 파라미터 크기가 더 큰 상위 모델들을 expert 모델로 사용한다. 단, LLaMA 7B 모델의 경우 대비적 디코딩 결과는 제외한다.
DoLa: amateur 모델 대신 동적으로 선정된 하위 레이어(lower layer)를 대비 계층(contrasting layer)으로 사용하는 방식의 대비적 디코딩 전략이다.

4.3 실험 설정 (Setup)

본 연구의 모든 실험에서 LLaMA 시리즈 모델들(7B, 13B, 33B, 65B)을 사용한다. 여기서 0번째 레이어는 첫 번째 Transformer 레이어 이전의 단어 임베딩 레이어를 의미한다. LLaMA 7B/13B/33B/65B 모델의 레이어들은 각각 2/4/4/4개의 후보 레이어(bucket)로 나누어 사용한다. 하이퍼파라미터 탐색은 모델 크기에 따라 2~4회의 검증(validation)을 수행하여 최적의 레이어를 선택한다.

모든 데이터셋에 대해 2-fold 검증을 실시하여 최적의 후보 레이어(bucket)를 선정한다. TruthfulQA 데이터셋의 경우 모든 프롬프트가 개방형 질문(Qs, open-ended)이라 가정하고 최소 엔트로피(minimum entropy) 설정으로 대비 계층을 선택한다. 다른 데이터셋의 경우 모든 프롬프트가 사실적 질문(Qf, factual)이라고 가정하고 최대 엔트로피(maximum entropy) 설정을 따른다. 추가적인 실험 설정과 하이퍼파라미터에 관한 상세 내용은 부록 A 및 표 5, 6에서 확인할 수 있다.

아니 근데 이 방법은, 타겟 데이터에 따라 contrastive layer을 미리 설정하고 들어가는 컨셉이라.. 데이터 디펜던시가 너무 크게 걸리는거 아닌가 싶음

5 실험 결과

5.1 다지선다(Multiple Choice) 문제

TruthfulQA의 다지선다 분할 문제에 대해 Lin et al.(2022)에서 제안한 프롬프팅 전략을 그대로 채택하였다. 본 데이터셋에서는 최소 엔트로피 설정(minimum entropy setting)을 사용하며, 모든 모델에 대해 2-fold 검증 후 가장 높은 계층(bucket)을 선택했다.

표 1은 LLaMA 모델의 네 가지 크기(7B, 13B, 33B, 65B)에서 우리의 방법이 기존의 최고 성능 베이스라인인 DoLa를 상회하는 성능 향상을 나타내고 있음을 보여준다.

ITI는 일부 학습이 들어가야하기 때문에 7B모델에서만 비교가 된듯
7B보다 큰 모델들은 CD을 사용할 수 있어서 CD와 비교한거 같고 (7B가 아마추어 모델)
생각보다 DoLA도 나쁘지 않은거 같고, ITI는 비교가 적기는 한데 그닥 좋아보이진 않네
CD는 생각보다 나쁘네. 약간 완전 베이스라인 느낌이긴한듯

FACTOR(wiki) 다지선다 데이터셋은 정답과 3개의 혼동 선택지(distractor)가 긴 문단 형태의 컨텍스트와 함께 제시된다. 대부분의 질의가 사실적(factual)이기 때문에, 이 데이터셋에서는 최대 엔트로피 설정(maximum entropy setting)을 사용하며, 모든 모델에서 2-fold 검증 후 가장 낮은 계층(bucket)을 선택하였다.

표 1의 결과에서 볼 수 있듯이 우리의 방법은 DoLa를 능가한다.

5.1.1 제거 실험(Ablation Study)

TruthfulQA 다지선다 분할에서 제거 실험(ablation study)을 수행하였고, 표 2로부터 다음과 같은 관찰 결과를 얻었다:

외삽(Extrapolation)의 효과:
외삽은 대비적 디코딩(contrastive decoding) 없이도 성능을 향상시킨다. 그러나 외삽의 실질적 이점은 마지막 레이어를 보다 성숙(mature)하게 만들어, 대비적 디코딩의 성능을 더욱 극대화하는 데 있다.
단조성(Monotonicity)의 효과:
알고리즘 1에서 최상위 k개 토큰의 확률이 마지막 L개의 레이어에서 단조 증가 또는 감소하는지를 체크한다. 단조성 기준을 적용하지 않고 모든 토큰에 대해 무분별하게 외삽을 수행할 경우 성능이 크게 저하된다. 이는 외삽이 무분별하게 수행되어서는 안 되며, 확률 변화가 지속적으로 증가 또는 감소하는 소수의 핵심 토큰에만 선택적으로 적용되는 것이 최적임을 시사한다.
랜덤/임베딩 레이어 선택 효과:
무작위로 하위 레이어를 선택하여 대비 레이어로 사용할 경우 성능이 저하되어, 엔트로피를 활용한 계층(layer) 선택의 중요성을 나타낸다. 또한 임베딩 레이어를 선택하면 디코딩이 효과적이지 않으며, 이는 임베딩 레이어의 확률 분포가 대부분 bi-gram 분포에 가깝기 때문이다.
최소/최대 엔트로피의 효과:
TruthfulQA 데이터셋은 개방형 프롬프트(Qs)가 주를 이루므로, 최대 엔트로피 기준으로 하위 레이어를 선택하면 성능이 감소한다. 즉, 이 데이터셋에서는 최소 엔트로피 설정을 사용하는 것이 더 효과적이다.

5.2 개방형 생성(Open-ended Generation)

5.2.1 TruthfulQA

개방형 TruthfulQA 생성 태스크에서는 Chuang et al.(2023)의 평가 프로토콜을 그대로 따랐다. 평가를 위해 진실성(Truthfulness)과 정보성(Informativeness)을 GPT-3 기반으로 파인튜닝된 두 개의 평가 모델(judge)을 이용하여 측정하였다. 예를 들어, "잘 모르겠습니다"라고만 답하면 100%의 진실성 점수를 얻을 수 있지만, 정보성 점수는 0%가 된다. 하이퍼파라미터 및 질의 응답 프롬프트는 앞서 수행한 TruthfulQA의 다지선다 태스크와 동일한 설정을 유지하였다.

표 3의 결과에서 나타나듯이, 우리의 방법은 진실성과 정보성을 곱한 점수(%Truth × Info) 측면에서 DoLa 베이스라인을 지속적으로 능가하였다. 그러나 LLaMA 7B 모델에서는 여전히 ITI 방법이 더 우수한 성능을 보였다. 우리의 방법은 정보성과 진실성의 균형을 잘 유지하는 반면, 대비적 디코딩(contrastive decoding)만 적용한 경우 정보성 향상 없이 진실성만 크게 높이는 경향을 보였다.

5.2.2 연쇄 추론(Chain-of-Thought Reasoning)

추론 및 사실적 지식 회상을 동시에 요구하는 StrategyQA 및 GSM8K 데이터셋을 사용하여 연쇄 추론(Chain-of-Thought, CoT) 태스크를 수행했다. GSM8K 데이터셋의 10%를 사용하여 2-fold 검증을 수행한 결과, 두 데이터셋 모두 최대 엔트로피 설정을 적용한 가장 낮은 계층(bucket)이 최적이었으며, 이는 FACTOR 다지선다 태스크에서의 결과와 일관된다.

표 4의 결과를 통해 StrategyQA와 GSM8K 두 데이터셋 모두에서 우리의 방법이 DoLa보다 일관되게 더 좋은 성능을 나타냄을 확인할 수 있다. 그러나 연쇄 추론 기반 디코딩의 특성상, 사실적이지 않은 단어(non-factual words)를 다수 생성해야 하는 경우가 많아, 이 데이터셋들에서는 외삽(extrapolation)의 효과가 상대적으로 적었다. 비사실적인 단어에 무분별하게 외삽을 적용할 경우 오히려 성능이 저하됨을 확인하였다.

6 Discussion

6.1 외삽 계수( $\alpha$ )의 영향

TruthfulQA와 StrategyQA 데이터셋에서 외삽 계수( $\alpha$ )의 영향을 분석하였다. $\alpha$ 값을 0.1에서 1.0까지 0.1 단위로 변경하며 실험을 진행했다. $\alpha$ 값이 증가하면 외삽(extrapolation)이 발생하는 임계점이 높아져서 추론 과정에서의 전체적인 외삽 횟수가 감소한다.

그림 5의 결과를 바탕으로 다음과 같은 관찰을 얻었다.

TruthfulQA:
최적의 성능을 얻으려면 더 많은 외삽이 필요하다는 것이 확인되었다. 이는 마지막 레이어가 정답을 결정하기에 충분히 성숙(mature)하지 않다는 점을 시사한다.
StrategyQA:
반대로 최적의 성능을 얻기 위해 외삽을 적게 적용해야 한다는 것이 확인되었다. 이는 앞쪽 레이어들이 이미 정답을 충분히 결정하였으며, 이후 추가 레이어나 외삽은 예측 결과에 큰 영향을 주지 않는다는 점을 나타낸다.

6.2 추론 단계의 외삽 레이어( $E_i$ )의 영향

추론 단계에서 외삽을 시작하는 레이어( $E_i$ )가 성능에 미치는 영향을 TruthfulQA와 GSM8K 데이터셋에서 분석하였다. LLaMA 7B 모델의 경우 $E_s$ 값을 32(외삽 미적용 상태)에서 41까지, LLaMA 13B 모델의 경우 40에서 49까지 변화시키며 실험하였다.

그림 6에서 보듯, 특정 레이어까지 외삽을 적용할 때 모든 데이터셋과 모델에서 성능 향상이 있었다. 그러나 일정 지점을 지나면 성능이 급격히 감소하기 시작했다. 이는 외삽 과정에서 중요하지 않은 토큰들이 의도치 않게 상위에 올라오면서 성능을 저하시킬 수 있음을 시사한다.

평균적으로 약 5개의 레이어를 외삽하는 것이 최적의 결과를 보였다. 단, 정확한 최적의 레이어( $E_i$ )나 개별 토큰에 대한 외삽 여부는 명시적으로 튜닝하지 않았다. 대신 외삽 발생 시점을 제어하는 $\alpha$ 값을 검증(validation) 세트를 통해 조정하였다.

7 관련 연구 (Related Work)

7.1 대규모 언어모델(LLMs)의 환각(Hallucination)

최근 대규모 언어모델(LLMs)의 환각(hallucination) 현상이 모델의 크기와 성능이 증가함에 따라 중요한 연구 주제로 부상하였다. Lucas et al.(2023)는 LLM이 표면적 패턴을 학습함으로써 학습 데이터와 일치하지 않는 내용을 만들어내는 경향이 있음을 실험적으로 입증하였다. Ye et al.(2023)는 환각을 공식적으로 정의하고 생성된 문장의 사실성을 정량화하는 지표를 제안하였다. Huang et al.(2023)는 LLM이 드물게 등장하는 이름이나 민감한 속성에 대해 더 자주 환각을 일으킨다는 점을 보였으며, 이는 긴꼬리(long-tail) 데이터 분포 및 사회적 편향과 연관이 있음을 밝혔다. 또한 Zhou et al.(2023)는 합성 데이터를 이용한 자기 지도 학습이 환각 경향을 심화시킨다는 것을 발견하였다.

Li et al.(2023b), Chuang et al.(2023)을 포함한 여러 연구들은 사실적 지식 기반으로 디코딩(decoding)을 수행하여 환각을 줄이는 기법들을 제안하고 있다. 그러나 환각의 정확한 진단과 체계적인 완화 방법은 여전히 해결되지 않은 문제이다. 결론적으로, 기존 연구들은 환각을 LLM의 고급 기능과 함께 등장하는 매우 중대한 미해결 문제로 지적하고 있다.

7.2 대비적 디코딩(Contrastive Decoding)

대비적 디코딩(Contrastive Decoding)은 LLM에서 생성되는 텍스트를 제어하기 위한 유망한 기술이다. Li et al.(2023b)는 디코딩 경로가 특정 제약조건을 만족하도록 유도하는 대비 탐색(contrastive search)을 처음 제안하였다. 이후 다양한 연구에서 사실성(factuality, Chuang et al., 2023), 추론(reasoning, O’Brien et al., 2023), 특정 스타일의 응답 생성(Zheng et al., 2021) 등 여러 생성 제어 과제로 대비적 디코딩의 활용을 확장하였다. 키워드 기반 조건화(keyword conditioning, Li et al., 2022a), 이산적(discrete) 가이던스 인코딩(Cho et al., 2023), 효율적인 탐색 알고리즘(Xu et al., 2023) 개발 등도 최근 활발히 진행 중인 연구 분야이다.

대비적 디코딩은 현재 초기 단계이지만 목표 지향적 텍스트 생성에서 뛰어난 가능성을 보여주고 있다. 가이던스 인코딩 방식, 탐색 효율성, 종합적 제어와 관련된 어려움들이 여전히 존재하지만, 초기 연구들의 성공은 대비적 디코딩이 LLM의 발전과 함께 지속적으로 진화하는 유연한 생성 제어 패러다임으로 자리 잡을 가능성을 보여주고 있다.

Reference

https://aclanthology.org/2025.coling-main.439.pdf

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-279, Entropy Guided Extrapolative Decoding to Improve Factuality in Large Language Models, COLING 2025

◼ Comment

Abstract

1 Introduction

2 선행 지식

2.1 대조 디코딩과 사실성

2.2 Entropy Across Transformer Layers

3 방법론