◼ Comment

이 방법 자체는 간단하다

그림 1이 대부분을 설명하는데, 일단 프롬프트에 해당하는 응답을 샘플링으로 다양하게 생성한다. 샘플링 응답을 s1, s2, ..라고하자
그리고 기존 프롬프트에 넣어서, 응답을 재생성하라고 한다
각 sk에 대해 응답을 생성할때 토큰 확률이 있을텐데, 각 sk로 인해 발생하는 토큰확률의 합을 더해준다
그리고 가장 큰 토큰을 선택해가면서 디코딩하는 것이다

이 방법이 왜 working하는지는 간단히 수식들이 있는데

수식은 2개의 텀이 있다
1. 기존 greedy decoding의 목적 함수 (문맥상 자연스럽고 일관되는지를 측정하는 것)
2. 응답의 사실성을 나타내는 텀이고, 이것이 이 논문의 의도라고 보면되는데
사실성 텀을 계산한다는 것은 사실상 불가능하고, 이것을 근사화해서 계산을 하는데
그것이 위에서 말한 방법대로 하면 된다는 것이다
왜냐하면 self-consistecny가 높을수록 (즉 여러 샘플링간의 유사도가 높을수록) 정답인 응답일 확률이 높다는 연구가 이전에 있어왔다
따라서 샘플링 응답 s1, s2, ..을 통해 생성되는 토큰확률을 더한다면 이게 self-consistency을 의미한다는 개념으로 주장한다

물론 이렇게 매 스텝 더해서 토큰을 정하는 방식 (greedy)는 정확한 계산은 아니다.
원래는 각 토큰이 끼치는 영향을 알아야하기 때문에 그 토큰으로부터 파생되는 path들을 다 고려하여 디코딩을 하는건데 이는 불가능하기 때문에 위 방식대로 근사화하는 것이다

코드 구현은 기존 허깅페이스 라이브러리에는 없었을거 같고 깃허브를 참고해야하지 않을까? 싶다
비교 논문 및 벤치마크 데이터도 살펴보면 좋을거 같고
사실성이 좋아진다는 실험은 당연히 메인이고

더불어서 정보성을 해치지 않는다는 포인트로도 실험이 진행이 되었다
기존 환각감소 디코딩방법은 정보성이 일부 해친다는 실험결과가 있지만 ID(논문방법)은 그렇지 않다는 것이다
+ 근데 MMLU같은 벤치마크 점수로 측정을 해보면 어떨까 궁금하긴함

ABSTRACT

Self-consistency 기반 접근법은 여러 출력을 반복적으로 샘플링한 뒤, 그중 가장 일관된 응답을 최종 답변으로 선택하는 방식으로, 대형 언어 모델의 사실 정확도를 향상시키는 데 매우 효과적인 것으로 나타났다. 그러나 기존 방법들은 일반적으로 작업 형식에 엄격한 제약이 있어, 활용 범위가 제한되는 경우가 많다.

이 논문에서는 Integrative Decoding (ID) 를 제안하여, 개방형 생성 과제에서 self-consistency의 잠재력을 효과적으로 활용할 수 있도록 한다.
ID는 이전에 샘플링된 응답을 입력 앞에 덧붙인 여러 입력 세트를 구성한 뒤, 이들을 동시에 처리하고, 각 디코딩 단계에서 이들이 예측한 다음 토큰들을 집계하여 최종 토큰을 선택하는 방식으로 동작한다.

본질적으로 이 단순한 접근법은 self-consistency를 디코딩 목표에 암묵적으로 통합한다.
광범위한 평가를 통해 ID가 다양한 언어 모델 전반에 걸쳐 사실성을 일관되게 향상시킴을 확인했으며, TruthfulQA(+11.2%), Biographies(+15.4%), LongFact(+8.5%) 등의 벤치마크에서 상당한 성능 향상을 보였다.
또한 성능 향상 폭은 샘플된 응답 수가 증가함에 따라 점진적으로 확대되며, 이는 ID가 반복 샘플링을 통해 더욱 확장 가능함을 시사한다.

1 INTRODUCTION

다양한 분야에서의 눈부신 발전에도 불구하고, 대형 언어 모델(Large Language Models, LLMs) 은 여전히 사실과 다른 오류를 생성(hallucination) 하는 경향으로 잘 알려져 있다 (Lewis et al., 2020; Ji et al., 2023). 기존 연구들에 따르면 ‘반복 샘플링(repeated sampling)’ 은 사실 정확도를 높이는 데 매우 효과적인 방법론으로 밝혀졌다 (Wang et al., 2023; Shi et al., 2022; Chen et al., 2023). 이 방법은 하나의 프롬프트에 대해 여러 응답을 샘플링한 뒤, 그 중 가장 정확한 응답을 선택하거나 여러 응답을 조합해 정제된 출력을 생성하는 것이다.

특히 샘플링 수가 증가할수록 성능 향상도 거의 로그-선형적으로 증가하는 경향이 있음이 최근 Brown et al. (2024)의 연구에서 밝혀졌는데, 이는 "추론 단계에서의 스케일링 법칙(inference-time scaling laws)" 이 존재함을 시사하며, 반복 샘플링을 통해 모델이 이론적 성능 상한에 가까워질 수 있는 가능성을 보여준다.

그러나 이처럼 유망한 방법론에도 불구하고 핵심적인 과제가 남아 있다.
바로 샘플들 중 비사실적인 내용을 효과적으로 식별하고, 정확한 최종 출력을 생성하는 방법 이다.

이 문제를 다루기 위한 유용한 지표로 주목받는 것이 바로 “자기 일관성(self-consistency, SC)” 이다 (Wang et al., 2023; Shi et al., 2022; Chen et al., 2023 등).
여러 응답에 일관되게 등장하는 진술은 그렇지 않은 진술에 비해 사실일 가능성이 높다는 관찰이 이를 뒷받침한다.

하지만 대부분의 SC 기반 사실성 향상 기법은 응답 형식에 엄격한 제약을 두고 있어 적용 범위에 한계가 있다.
대부분의 기존 연구는 응답 간의 일관성을 측정하기 어려워, 정답 일치 여부 등 명시적인 일관성 정의가 가능한 산술 문제나 객관식 문제 등에만 적용됐다 (예: Wang et al., 2023; Shi et al., 2022; Li et al., 2022).
이러한 한계를 고려할 때, 자연스럽게 다음과 같은 질문이 제기된다:

“Self-consistency와 반복 샘플링의 잠재력을 개방형 생성(open-ended generation) 과제에 어떻게 확장시킬 수 있을까?”

가장 직관적인 방법은 모든 샘플 응답을 프롬프트에 이어 붙이고, 모델에게 이 중 가장 일관된 응답을 고르도록 지시하는 것이다 (Chen et al., 2023).
그러나 이러한 방식은 입력 길이를 지나치게 늘려 모델의 장문 처리 능력에 큰 부담을 준다.
또 다른 접근은 각 응답을 진술의 모음으로 보고, 진술 쌍 사이의 일관성을 클러스터링(Thirukovalluru et al., 2024)이나 반복 프롬프트(Mündler et al., 2024; Wang et al., 2024) 등을 통해 평가하는 것이다.
하지만 이는 출력이 길어질수록 추론 횟수가 기하급수적으로 증가하여 효율성이 떨어진다.
결국 지금까지 SC를 개방형 생성에 적용하려는 시도들은 장문의 생성에는 일반화가 어려웠고, 샘플 수가 증가할수록 확장성도 부족했다.

이에 본 논문에서는 Integrative Decoding (ID) 이라는 새로운 디코딩 전략을 제안한다.
ID는 디코딩 목표에 self-consistency를 암묵적으로 통합함으로써 사실성을 개선한다.
ID는 다음과 같은 방식으로 작동한다:

먼저 기존 방식처럼 반복적으로 응답을 샘플링한다.
이후 각 샘플 응답을 원래 프롬프트 앞에 덧붙여 새로운 입력을 구성한다. 이는 모델에게 이전 응답을 참고해 다시 응답하라는 의미를 암묵적으로 전달한다.
그 다음, 이러한 입력들을 병렬로 디코딩하며, 각 단계마다 모든 입력의 다음 토큰 예측값을 모아 통합적으로 가장 일관된 토큰을 선택한다.

이 과정에서 각 입력은 해당 샘플 응답의 “대표자” 역할을 하며, 그 응답과 의미적으로 일치하는 토큰에 “투표”하는 셈이다.
ID는 이러한 투표를 집계해 전체적으로 가장 일관된 출력을 생성한다.

기존의 SC 기반 방식들과 달리, ID는 추가적인 프롬프트 조작이나 Chain-of-Thought(연쇄 추론) 을 필요로 하지 않으며,
장문 처리에 부담을 크게 주지 않으면서도 추론 지연을 최소화하여 사실성 향상 효과를 낼 수 있다 (자세한 비교는 Table 1 참조).

우리는 ID를 다양한 규모의 6종 LLM에 대해 평가했다.
ID는 TruthfulQA(+11.2%), Biographies(+15.4%), LongFact(+8.5%) 등 다양한 데이터셋에서 문장 수준부터 문서 수준까지 일관되게 사실성을 향상시켰으며,
샘플 수가 증가함에 따라 성능 향상 폭도 커져, 반복 샘플링과 함께 스케일링 가능한 가능성을 보여준다.

2 METHOD

사전 지식: 사실성의 지표로서의 Self-Consistency

이전 연구들은 대형 언어 모델(LLM)의 서로 다른 샘플 응답 간의 자기 일관성(self-consistency) 정도가 환각(hallucination) 탐지를 위한 유용한 지표가 될 수 있다는 사실을 발견했다 (Manakul et al., 2023; Farquhar et al., 2024).
여러 샘플 응답에서 일관되게 지지되는 사실은, 출력 간에 산발적으로 혹은 불일치하게 등장하는 사실보다 사실일 가능성이 높다는 것이다.

형식적으로, 어떤 프롬프트 $x$ 와 그에 대한 응답 $\hat{y}$ 가 있고, 이 응답이 일련의 진술 $S = \{s_1, s_2, ..., s_n\}$ 로 구성되어 있다고 하자. 이때, 진술 $s_i$ 의 사실성 점수는 동일 프롬프트 $x$ 에 대해 생성된 다른 샘플 응답들의 집합 $R = \{r_1, r_2, ..., r_k\}$ 과의 일관성을 통해 다음과 같이 측정할 수 있다:

$\begin{matrix} \end{matrix}$

여기서 $f(s_i)$ 는 진술 $s_i$ 의 사실성 점수이고, $P(\text{consistent} \mid s_i, r_j)$ 는 $r_j$ 가 $s_i$ 를 지지할 확률이다. 이러한 응답 샘플은 temperature sampling(Ficler & Goldberg, 2017)이나 nucleus sampling(Holtzman et al., 2020)과 같은 샘플링 알고리즘을 통해 얻을 수 있다.

여기서 말하는 방법은 selfcheckgpt랑 유사하긴함
r은 question에 대한 여러 응답이고
각 r은 여러 statement (s)로 이루어져있음
s에 대한 사실성 점수는 모든 r과의 비교를 통해 점수를 매길 수 있음

응답 전체 $\hat{y}$ 의 사실성 점수는 다음과 같이 정의된다:

$\begin{matrix} \end{matrix}$

$여기서$

$\bar{f}(\hat{y}, r_j) = \frac{1}{|S|} \sum_{s_i \in S} P(\text{consistent} \mid s_i, r_j)$

는 응답 $\hat{y}$ 가 응답 $r_j$ 로부터 얼마나 지지받는지를 나타낸다.

디코딩 목적 함수의 정식화

Self-consistency가 환각 탐지에 효과적이라는 기존 통찰은 다음 사실을 시사한다:
다른 응답들과 가장 일관된 응답이 사실일 가능성이 가장 높다.
이러한 통찰에 기반하여, 여러 샘플 응답이 주어졌을 때 그들과의 전반적인 일관성을 유지하면서도 일관성 있고 논리적인 새로운 출력을 생성하는 디코딩 방법을 고안하고자 한다.

프롬프트 $x$ 가 주어졌을 때, 디코딩 방법은 다음 목적 함수를 최적화하여 응답 $\hat{y}$ 를 찾는다:

$Y$ 는 가능한 모든 토큰 시퀀스의 집합이며, $H(x, y)$ 는 디코딩 목적 함수이다.
일반적인 디코딩 알고리즘(예: 빔 서치)은 $H(x, y) = \log p_\theta(y|x) = \sum_{t=1}^{|y|} \log p_\theta(y_t | y_{<t}, x)$ 와 같이 모델 파라미터 $\theta$ 를 기반으로 확률 로그 합으로 정의된다.

그러나 본 논문에서는 목적 함수를 다음과 같이 구성한다:

$H(x, y) = F(y) + \lambda \cdot G(x, y)$

여기서 $\lambda$ 는 상수이며,

$G(x, y)$ : 프롬프트 $x$ 와 응답 $y$ 가 문맥상 자연스럽고 일관된지를 측정하는 기존 디코딩 목적,
$F(y)$ : 응답 $y$ 의 사실성을 강조하는 추가 항이다.
일반적으로 decoding의 목적함수는 과거 토큰들을 기반으로 next token의 확률이 가장 큰 것을 고르는 식인데 = G(x,y)
여기서는 F(y) 라고해서 사실성을 강조하는 추가 항을 더해준다
사실성 점수는 식2 을 통해 구할 수 있다

Equation (2)를 활용하여 $F(y)$ 를 대체한 새로운 목적 함수는 다음과 같다:

Integrative Decoding

하지만 식 (4)를 직접 계산하는 것은 매우 어렵다.
$\bar{f}(y, r_j)$ 을 정확히 구하기 위해선 LLM을 반복 호출하여 각 진술이 $r_j$ 로부터 지지받는지를 확인해야 하며, 이는 계산 비용이 크고 정교한 프롬프트 설계가 필요하다 (Mündler et al., 2024; Manakul et al., 2023).

실제 식 2을 통해 사실성점수를 구하는건 코스트도 들고 프롬프트 엔지니어링 등을 해야하기 때문에
근사화해서 계산한다는 것

이를 해결하기 위해 본 논문에서는 식 (4)를 다음과 같이 근사한다.
핵심 아이디어는 다음과 같다:
샘플 응답 $r_j$ 을 참조하여 프롬프트 $x$ 에 다시 응답하도록 모델을 유도하면, 해당 응답은 $r_j$ 와 일관성을 갖는 방향으로 생성된다.
이를 위해 다음과 같은 새 입력 $q_j = [x; r_j; x]$ 를 구성한다.

이때 다음 가정이 성립한다고 본다:

즉, LLM은 입력 내 rj를 참고하여 일관성을 유지하면서 동시에 프롬프트
x와 문맥적으로 부합하는 y를 생성하려고 하므로 이 가정은 타당하다.
이 부분이 핵심이긴함

이로부터 다음 식으로 목적 함수를 근사할 수 있다:

$\begin{matrix} \end{matrix}$

이 식은 다시 다음과 같이 전개할 수 있다:

$\begin{matrix} \end{matrix}$

그러나 가능한 $y \in Y$ 의 탐색 공간이 매우 크기 때문에 이 계산은 현실적으로 어렵다.
따라서 본 논문은 탐욕적(greedy) 알고리즘 방식을 차용하여, 각 디코딩 스텝에서 국소 최적화 방식으로 다음 토큰을 선택한다.

즉, $t$ 번째 디코딩 스텝에서 다음 토큰 $\hat{y}_t$ 는 다음과 같이 선택된다:

$\begin{matrix} \end{matrix}$

이해하기론 원래 목적식은 최종 응답을 생성한후, 그때까지의 생성될 토큰확률을 더한값이 H(y)가 된다.
$따라서 다양한 최종 응답을 생성하고, 그에 대한 H(y)을 계산해서 최적의 y을 선택해야하는데.. 생성될 수 있는 y는 엄청 많다.$
$따라서 greedy decoding하듯이, 매 스텝에서 가장 확률 높은 토큰을 선택해서 생성해나간다는 뜻$

전체 워크플로우 요약

이상의 분석을 바탕으로, ID의 전체 워크플로우는 다음과 같다 (Figure 1 참고):

여러 응답 $R = \{r_1, r_2, ..., r_k\}$ 을 샘플링한다.
각각에 대해 새로운 입력 $Q = \{q_1, q_2, ..., q_k\}$ 를 생성한다.
각 $q_j$ 는 모델이 $r_j$ 를 참고하여 프롬프트 $x$ 에 다시 응답하도록 유도한다.
이 입력들을 동시에 하나의 배치(batch) 로 모델에 전달한다.
각 디코딩 스텝 $t$ 에서, 모델이 각 입력 $q_j$ 에 대해 예측한 다음 토큰의 로그 확률(logit) 을 집계한 뒤, 가장 높은 토큰을 선택하여 모든 시퀀스에 적용한다.
모든 시퀀스는 같은 출력을 공유하며, 최종적으로 하나의 응답 $\hat{y}$ 로 출력된다.

이 방식은 모든 샘플 응답의 일관성을 통합하여 최종 응답을 생성함으로써, 개방형 생성에서의 사실성을 효과적으로 향상시킨다.

3 EXPERIMENTS

3.1 SETUP

벤치마크 및 평가 지표

우리는 세 가지 open-ended 생성 벤치마크를 고려한다:

• TruthfulQA

TruthfulQA(Lin et al., 2022)는 인간들이 오개념으로 인해 잘못된 답을 하기 쉬운 817개의 질문으로 구성된다.
우리는 GPT-4 (Bubeck et al., 2023)를 이용해 각 생성된 응답의 진실성(Truth)과 정보성(Info) 점수를 평가한다.
이 두 점수의 곱(T*I)이 해당 벤치마크의 주요 평가 지표로 사용된다.
평가 시, 데이터셋에 주석으로 포함된 참조 정답들을 GPT-4가 진실성을 평가할 때 프롬프트에 포함시킨다.
정보성 점수는 응답이 질문에 직접적으로 유효한 정보를 포함하는지를 평가한다.
GPT-4는 Lin et al. (2022)에서 제공된 평가 샘플들을 데모 예시로 사용하여 few-shot 방식으로 평가한다.
TruthfulQA 데이터 논문에서 제공한 평가샘플들을 few-shot으로 LLM 평가로 진실성과 정보성 점수를 평가하고, 이를 곱하여 최종 점수를 매긴다?

• Biographies

Biographies(Du et al., 2024)는 컴퓨터 과학자들에 대한 글머리표 형식의 전기 정보를 생성하는 과제로, 총 250개의 샘플을 포함한다.
구체적으로, 우리는 모델에게 해당 과학자의 5가지 주요 업적 혹은 기여를 나열하라고 프롬프트를 제공한다.
Du et al. (2024)를 따르며, 각 글머리표 진술의 사실성을 GPT-4가 Wikipedia에서 추출한 관련 정보를 참고하여 평가한다.
평가 지표로는 사실적인 진술의 비율(% Accuracy)과 사실적인 진술의 수(# Correct)를 사용한다.
단, % Accuracy는 단순히 # Correct를 5로 나눈 것이 아니며, 이는 모델이 확신이 없을 때 5개 미만의 진술을 생성할 수 있기 때문이다.

• LongFact-Objects

LongFact-Objects(Wei et al., 2024)는 어떤 객체에 대한 자세한 설명을 요구하며, 일반적으로 수천 토큰이 넘는 문서 수준의 응답을 기대한다(자세한 예시는 부록 G 참고).
평가는 Wei et al. (2024)에서 설명된 방식과 유사하게, 긴 응답을 일련의 원자적 사실들로 나눈 뒤, 각 사실의 진실성을 개별적으로 평가한다.
우리는 LLaMA3.1-70B-Instruct를 사용하여 원자적 사실들을 분할하고, 각 사실이 사실인지 여부를 평가하기 위해 GPT-4를 사용한다.
사용된 평가지표는 사실적인 사실의 비율(Precision), 128개 기준으로 나눈 사실 중 사실적인 수(Recall@128), 그리고 이 둘을 통합한 F1@128이다.
총 120개의 샘플을 평가에 사용한다.
다른 기준값에 대한 recall 및 F1 평가는 부록 C.3에 제공되어 있다.

비교 방법
우리는 다음과 같은 방법들과 제안 기법을 비교한다:

(1) 탐욕적 디코딩(Greedy),
(2) Contrasting Layers 기반 디코딩(Chuang et al., 2024b, DoLa).

또한 반복 샘플링을 통해 정제된 출력을 생성하는 5가지 앙상블 기반 방법과도 비교한다:

(3) Universal Self-Consistency (Chen et al., 2023, USC):

샘플된 응답들을 하나의 프롬프트에 이어붙이고, 그중 가장 일관된 응답을 선택하라고 LLM에게 직접 지시한다.

(4) Self-reflection (Madaan et al., 2024, SR):

샘플된 응답들을 입력으로 연결하고, 모델에게 그에 대해 반영(reflect)하여 사실적인 정보를 추출하고 새로운 응답을 생성하라고 요청한다.

(5) Selection-based self-endorsement (Wang et al., 2024b, SE-SL):

모델에게 응답을 일련의 사실들로 분할하라고 요청하고, 각 사실이 다른 샘플 응답들과 얼마나 일치하는지를 통해 self-endorsement 점수를 계산한 뒤, 가장 높은 점수를 얻은 응답을 최종 출력으로 선택한다.

(6) Regeneration-based self-endorsement (SERG):

SE-SL의 변형으로, 샘플 응답에서 추출된 일부 사실을 사용해 새로운 출력을 재생성한다.

(7) Fine-grained Self-consistency (Wang et al., 2024a, FSC):

샘플 응답들 사이에서 공통된 구절을 추출하고 이를 바탕으로 새로운 출력을 생성하라고 LLM에게 지시한다.

기반 모델(Base Models)
주요 실험은 다음 모델들을 기반으로 수행되었다:

LLaMA-2-7B-chat (Touvron et al., 2023)
LLaMA-3-8B-Instruct (Dubey et al., 2024)
Mistral-7B-Instruct-v0.2 (Jiang et al., 2023)
Gemma-29B-it (Team et al., 2024)
Qwen2-7B-Instruct (Yang et al., 2024)
GLM-4-9B-chat (GLM et al., 2024)

우리는 이들을 각각 LLaMA2, LLaMA3, Mistral2, Gemma2, Qwen2, GLM4로 지칭한다.

구현 세부 사항(Implementation Details)
각 방법에 사용된 프롬프트 템플릿은 부록 F에 제공된다.
주요 실험에서 USC, SR, ID를 구현할 때 모든 샘플 응답은 temperature $T = 0.7$ 로 샘플링되었다.
USC, SR, ID에 대해, 검증 세트를 활용하여 통합할 샘플 응답 수 $k \in \{1, 4, 8, 12, 16\}$ 중 최적값을 탐색하고, 이를 테스트 세트 평가에 사용하였다.

TruthfulQA에서는 %Truth 점수, Biographies에서는 %Accuracy를 기준으로 최적 $k$ 값을 선정하였다.
LongFact는 평가 비용이 높기 때문에 최적 $k$ 탐색을 수행하지 않았고, ID의 경우 $k = 16$ 을 고정으로 설정하였다.

USC, FSC, SR의 경우 모든 샘플 응답을 프롬프트에 포함시켜야 하므로 $k = 4$ 로 설정하였다.
LongFact는 응답 길이가 매우 길기 때문에, $k > 4$ 로 설정할 경우 많은 LLM의 컨텍스트 길이 제한을 초과하게 된다.

3.2 주요 결과 (MAIN RESULTS)

Integrative Decoding은 여섯 개의 LLM 전반에서 사실성(factuality)을 크게 향상시킨다.
Table 2에 따르면 TruthfulQA, Biographies, LongFact 세 벤치마크에서의 절대적인 향상 폭은 각각 다음과 같다:

TruthfulQA: 3.7% ~ 10% (%Truth 기준)
Biographies: 1.1% ~ 15.4% (%Accuracy 기준)
LongFact: 1.6% ~ 8.5% (F1@128 기준)

여섯 개 모델 중에서는 LLaMA3와 Gemma2에서의 향상 폭이 가장 컸고,
LLaMA2는 향상 폭이 비교적 작았다. 이는 Integrative Decoding의 효과가 성능이 더 강력한 LLM일수록 더욱 뚜렷하게 나타난다는 점을 시사한다.

Integrative Decoding은 사실성과 정보성 간의 균형도 잘 유지한다.
정보성을 평가하는 지표들(예: % Info, # Correct, Recall@128)에서도 Integrative Decoding은 상당한 성능 향상을 보인다.
특히, 장문 생성이 요구되는 LongFact 벤치마크에서는 Recall@128에서 최대 11.4%의 절대 향상이 관찰되었다.
이는 Integrative Decoding이 단순히 오류를 제거하는 방식이 아니라,
모델로부터 더 많은 내재 지식(parametric knowledge) 을 끌어내면서도 사실성을 유지함을 보여준다.

반면, 기존의 재생성 기반 방법들(예: SR, FSC, SE-RG)은 사실성과 정보성 사이의 균형을 잘 이루지 못했다.
예를 들어, SR은 LongFact에서 GLM4 모델의 precision은 향상시켰지만,
Recall@128은 오히려 25.9% 하락하였다.
즉, 이들은 사실성을 보장하기 위해 정보성의 손실을 감수해야 하는 경우가 많았다.

즉 기존의 방법은 사실성은 올라가도 정보성 손실이 감소된다고 한다.

이 정보성 손실이라는 것을 Info, Correct, Recall을 통해 평가했음
근데 MMLU? 이런 국민지표들을 통해 성능 평가해보는 것도 중요할거 같음
(가설) 즉 자연어를 말할때는 사실성이 늘어나도, 정작 선택을 해야하는 상황에서는 성능이 떨어진다?

Integrative Decoding은 문서 수준 생성 과제에서도 강력한 성능을 보인다.
장문 생성은 사실성 향상 측면에서 도전적인 문제이며 아직 충분히 연구되지 않았다.
Table 2를 보면, 기존 방법들은 LongFact와 같은 문서 수준 과제에서 어려움을 겪고 있으며,
precision을 약간 향상시키는 경우도 있지만, 정보 회수율(recall) 과 F1 성능은 오히려 감소하는 경우가 많았다.

반면, Integrative Decoding은 LongFact에서도 최대 8.5%의 성능 향상을 기록하며,
장문 생성 과제에서도 높은 범용성과 안정성을 입증했다.

Integrative Decoding은 사실성 향상 측면에서 기존 방법들보다 더 크고 일관된 성과를 보인다.
DoLa 방법은 우리가 실험한 벤치마크들에서 향상 폭이 0.7% 이하로 매우 미미했고,
이는 DoLa가 open-ended, 장문 생성 과제에서 사실성 향상에는 제한적인 효과만을 갖는다는 것을 보여준다.

다른 기존 방법들도 일부 상황에서는 사실성을 개선했지만,
모델 간에 성능이 일관되지 못하고, 어떤 경우에는 성능을 악화시키기도 한다.
예를 들어:

USC는 LLaMA2에서 성능을 크게 저하시켰고,
SR은 Gemma2에서 성능을 떨어뜨렸다.
LongFact에서는 많은 경우 성능 향상이 거의 없거나 오히려 하락했다.

Integrative Decoding은 다양한 모델 규모에 대해서도 견고하다.
우리는 ID의 규모 확장 강건성(scalability robustness)을 검증하기 위해
Qwen2.5-3B/7B/14B/32B/72B-Instruct (Team, 2024c),
LLaMA-2-13B/70B-chat (Touvron et al., 2023),
Mistral-Nemo/Small/Large-Instruct2407/2409 (Team, 2024a)
를 사용하여 Biographies 데이터셋에서 추가 실험을 수행하였다.

Figure 2 (전체 결과는 부록 Figure 5 참조)에서 확인할 수 있듯이, ID는 다양한 모델 규모 전반에서 일관된 성능 향상을 보여주며, 특히 모델 규모가 클수록 성능 향상 폭이 더 크게 나타나는 경향을 보였다.

3.3 샘플 응답 수 증가의 효과

우리는 Figure 3을 통해 SR, USC, ID 세 방법에 대해 샘플 응답 수를 늘렸을 때 성능이 어떻게 변화하는지를 분석했다 (추가 결과는 부록 C.4에 수록되어 있음).

Integrative Decoding(ID) 은 샘플 수가 많아질수록 점진적으로 성능이 향상된다.
단 4개만 샘플링하더라도 ID는 꾸준히 성능 향상을 보여주었으며, Figure 4에서는 샘플링 전략에 따라 샘플 수를 늘렸을 때의 성능 변화도 분석했다.

역시 여기서도 샘플링을 하면 할수록 성능이 좋아지는 효과가 있긴함. 모든 방법이 그런건 또 아님

Figure 3과 4를 통해, 전반적으로 성능과 샘플 응답 수 사이에는 로그-선형 관계(log-linear relationship) 가 존재함을 관찰할 수 있었으며, 이는 정답 일치 기반 self-consistency 연구들(Wang et al., 2023; Brown et al., 2024) 의 결과와도 유사한 양상이다.

반면, USC와 SR은 샘플 수가 증가할수록 성능이 안정적으로 향상되지 않았다.
특히 LLaMA2와 같이 성능이 낮은 LLM에서는 오히려 성능이 하락하기도 했다.

분석 결과에 따르면,

USC는 여러 응답의 일관성을 평가하기보다는 프롬프트 내 첫 번째 응답만을 정답으로 선택하는 경향이 있으며,
SR은 여러 응답에서 사실을 추출하고 정제된 응답으로 통합하는 데 실패하는 경우가 많았다.

이러한 한계의 주요 원인은 여러 샘플 응답을 하나의 프롬프트에 모두 연결해야 한다는 점이다.
→ 이로 인해 입력 길이가 매우 길어지며,
→ 모델의 장문 처리 능력에 큰 부담을 주게 되어 스케일링이 어려워진다.

반면 ID는 입력에 단 한 개의 샘플 응답만 추가되므로,

입력 길이 증가가 최소화되고
모델이 쉽게 처리 가능하며,
컨텍스트 길이 포화나 처리 부담 없이 안정적이고 확장 가능한 성능을 발휘할 수 있다.
ID는 각각의 샘플링 문장을 따로따로 프롬프르에 넣어서 토큰 확률을 뽑고, 이를 나중에 더하는 개념이기 때문에 long context을 처리할 필요가 없는 장점이 있다는 것

3.4 디코딩 목적 함수에 대한 분석

언어적 일관성(Language Coherence) 평가

ID가 언어적 유창성이나 일관성(coherence) 을 손상시키는지를 확인하기 위해,
TruthfulQA 샘플에 대해 ID와 greedy decoding으로 생성된 응답 쌍을 비교하였다.
→ 평가에는 GPT-4-turbo를 사용하여

두 응답 중 더 언어적으로 자연스러운 쪽을 선택하거나,
차이가 없으면 “동점(Tie)” 을 고르게 하였다. (평가용 프롬프트는 부록 B.4 참조)

Table 3의 결과에 따르면:

대부분의 비교가 “동점”으로 판정되었고, ID가 이긴 경우가 진 경우보다 약간 더 많았다.

→ 이는 ID 방식으로 생성된 문장도 greedy 방식과 동일한 수준의 유창성과 언어적 일관성을 유지할 수 있음을 보여준다.

여기서도 ID로 인한 언어적 유창성이나 일관성이 손실되지 않는지 판단을 한 것. 결과상 그렇지 않았다

Self-consistency 평가

ID가 샘플 응답들과의 self-consistency를 얼마나 잘 유지하는지를 평가하기 위해,
Manakul et al. (2023), Farquhar et al. (2024) 방식에 따라 self-consistency 점수를 측정하였다 (평가 방법은 부록 B.5 참고).

평가 대상: ID와 더불어 self-consistency 기반 성능 향상을 목표로 한 기존 방식들
(USC, SR, SE-SL, SE-RG, FSC)
설정: 8개의 샘플 응답을 사용하여 최종 출력을 생성하고,
최종 응답과 나머지 샘플 응답 8개 간의 self-consistency 점수를 계산함.

또한 비교를 위해, 단순 temperature 샘플링을 통해 생성된 응답과 다른 8개 샘플 응답 간의 일관성도 측정했으며, 이를 Vanilla로 표기하였다.

Table 4 결과에 따르면:

ID는 모든 비교 방식 중 가장 높은 self-consistency 수준을 보였으며, 이는 사실성을 높이기 위해 self-consistency를 이용하려는 기존 방법들보다 훨씬 뛰어난 성과였다.

이 두 실험을 통해 우리는 다음을 확인할 수 있다:

Integrative Decoding은 디코딩 목적 함수(식 4)의 목표대로, 언어적 유창성과 self-consistency를 모두 효과적으로 향상시킬 수 있다.

3.5 추론 효율성 분석 (ANALYSIS OF INFERENCE EFFICIENCY)

우리는 사실성 향상을 위해 self-consistency를 활용하는 기존 방법들과 비교하여, ID의 추론 효율성을 평가하였다.
LLaMA3 모델을 사용하여 TruthfulQA 벤치마크에서 추론을 수행하였으며, 하드웨어는 A100 80GB GPU 한 대만 사용하였다.
설정은 샘플 응답 수 4개, 배치 사이즈 64로 구성하였다.

Table 5에 따르면,

ID의 추론 비용은 USC와 유사한 수준이며, 다른 모든 기존 방법들보다 현저히 낮다.

추론 비용이나 레이턴시도 측정했군?

이는 다른 방법들이 샘플 응답 간의 일관성을 평가하기 위해

반복적인 추론을 여러 번 수행하거나, 복잡한 Chain-of-Thought (CoT) 추론을 요구하기 때문인 반면, ID는 이러한 과정 없이 간결하게 수행되기 때문이다.

추론 효율성과 관련된 더 자세한 논의는 부록 D.1에서 다루고 있으며,
추론 시간 계산을 더 활용하여 성능을 높이는 기법을 탐색할 필요성도 함께 제안하고 있다.

3.6 다양한 샘플링 전략에 대한 강건성 분석 (ANALYSIS OF ROBUSTNESS TO DIFFERENT SAMPLING STRATEGIES)

우리는 ID가 다양한 샘플링 전략에 대해서도 안정적인 성능을 보이는지를 평가하였다.
Biographies 데이터셋을 기반으로 다음과 같은 샘플링 방식을 사용하였다:

temperature sampling: $T \in \{0.3, 0.5, 0.7\}$
nucleus sampling: $p \in \{0.9, 0.95\}$

Figure 4 (전체 결과는 부록 Figure 8 참고)에 따르면, ID는 모든 샘플링 전략에 걸쳐 안정적인 성능 향상을 보였다.

특히 nucleus sampling을 사용할 때 약간 더 뚜렷한 성능 향상이 관찰되었으나,
이 차이는 크지 않았고 일관되지도 않았다.
→ 즉, ID는 샘플링 방식에 상관없이 강건하게 작동함을 의미한다.

nucleus sampling을 이용해서 응답들을 뽑는게 좋다라는 것 (다른것도 좋긴함)

3.7 사례 분석 (CASE STUDY)

Integrative Decoding은 의미 수준에서의 self-consistency를 유지한다.

이를 구체적으로 보여주기 위해 Table 6에서 사례를 제시하였다.

사용된 기반 모델은 Qwen-7B-Instruct이다.

greedy decoding으로 생성된 5개 문장 중 3개는 환각(hallucination) 을 포함하고 있었고,
4개의 샘플 응답 역시 사실이 아닌 정보(non-factual information) 를 일부 포함하고 있었다
(전체 내용은 부록 G.2 참고).

그러나 ID는 샘플 응답들 간에 공통적으로 나타나는 내용만을 포착하고, 산발적인 환각 정보는 제거함으로써
→ 완전히 사실적이고 일관된 응답을 생성해냈다.

중요한 점은,

ID의 최종 응답에 포함된 문장들이 샘플 응답에 있는 문장들과 표현은 다르지만, 의미적으로 동일한 내용을 유지하고 있다는 점이다.

→ 이는 ID가 단순히 응답을 복사하거나 겉모양만 따라 하는 것이 아니라,
→ 의미 수준(semantic level)에서 self-consistency를 유지하고 있음을 의미한다.

이러한 효과는 다음 메커니즘을 통해 달성된다:

ID는 각 입력을 하나의 샘플 응답의 대표(“representative”) 로 취급한다.
모델의 in-context learning 능력을 활용하여,
각 입력은 해당 샘플 응답과 의미적으로 일치하는 토큰에 높은 확률(logit) 을 부여한다.
→ 단순히 그 샘플 응답에 직접 포함된 단어들만 사용하는 것이 아니다.

이로 인해 ID는 의미 수준에서 높은 self-consistency를 유지하면서도, 더 정확하고 사실적인 출력을 생성할 수 있게 된다.

4 관련 연구 (RELATED WORKS)

LLMs는 매우 다양한 과제를 해결하는 데 있어서 뛰어난 능력을 보여주고 있지만, 많은 연구들은 이들이 현실 세계의 사실과 일치하지 않는, 그럴듯하지만 잘못된 진술을 생성하는 경향이 있음을 발견하였다.
이러한 현상은 일반적으로 환각(hallucinations) 으로 불린다 (Bai et al., 2022; Yin et al., 2023; Huang et al., 2023b; Zhang et al., 2024c).

이전 연구들은, LLM의 서로 다른 샘플 응답들 간의 self-consistency(자기 일관성) 정도가 환각 탐지를 위한 유용한 지표가 될 수 있음을 보여주었다 (Manakul et al., 2023; Farquhar et al., 2024; Mündler et al., 2024).
또한, 이는 불확실성 추정(uncertainty quantification) 을 위한 지표로도 활용된다 (Desai & Durrett, 2020; Jiang et al., 2021; Glushkova et al., 2021; Kuhn et al., 2023; Duan et al., 2024; Zhang et al., 2024a).

이러한 연구들 중에서 self-consistency 기반 접근법은 사실성 향상에 있어 특히 효과적인 것으로 나타났다
(Wang et al., 2023; Shi et al., 2022; Chen et al., 2023; Thirukovalluru et al., 2024; Malon & Zhu, 2024; Mündler et al., 2024).
하지만 대부분의 기존 self-consistency 활용 방식은 작업 형식(task format) 에 엄격한 제약을 두며, 정답이 정확히 일치하는지(exact match) 를 기준으로 검증 가능한 과제에만 적용되었다 (Li et al., 2022; Shi et al., 2022; Wang et al., 2023; Huang et al., 2023a).

이러한 제약을 극복하기 위해, 일부 연구들은 self-consistency를 작업 형식의 제약 없이 open-ended 과제에 적용하려는 방향으로 확장하였다 (Chen et al., 2023; Thirukovalluru et al., 2024; Malon & Zhu, 2024; Mündler et al., 2024).
예를 들어,

USC (Chen et al., 2023) 는 여러 후보 응답을 이어 붙이고, LLM에게 가장 일관된 응답을 선택하도록 직접 지시한다.
Wang et al. (2024a) 는 LLM에게 프롬프트에 제공된 응답들과 일관된 새로운 응답을 재생성하도록 명령한다.
다른 접근법으로는 각 응답을 진술(statements) 의 모음으로 간주한 뒤, 진술 쌍 간의 일관성을 클러스터링(Thirukovalluru et al., 2024)이나 반복적인 LLM 프롬프트(Mündler et al., 2024; Wang et al., 2024a;b)를 통해 평가하는 방법도 제안되었다.

또한 이 연구와 밀접하게 관련된 또 다른 연구 흐름은, 디코딩 기반(decoding-based) 접근법을 활용하여 사실성을 향상시키려는 시도들이다 (Burns et al., 2023; Li et al., 2024; Chuang et al., 2024b;a).

Chuang et al. (2024b) 는 LLM의 후반층과 전반층의 로짓 차이를 비교하여 더 정확한 사실 기반 지식을 노출시키고, 잘못된 정보 생성을 줄이도록 디코딩하는 방식을 제안하였다.
Burns et al. (2023) 는 부정(negation) 상황에서도 일관된 방향을 유지하는 활성 공간(activation space) 상의 방향을 찾기 위한 consistency 기반 탐색 알고리즘을 소개하였다.
O’Brien & Lewis (2023) 는 강한 전문가 모델과 약한 모델 간의 가능도 차이를 최대화하는 대조 디코딩(contrastive decoding) 기법을 제안하여 환각을 줄이려 했다.

흥미롭게도, ID는 여러 로짓 예측값을 합산하는 방식으로 동작하는데, 이는 어떤 면에서 contrastive decoding의 반대 버전이라고 볼 수 있다.

5 결론 (CONCLUSION)

본 논문에서는 self-consistency를 디코딩 목적 함수에 통합한 새로운 디코딩 알고리즘, Integrative Decoding (ID) 를 소개하였다.

ID는 세 가지 open-ended 생성 벤치마크에서, 여섯 종의 LLM에 걸쳐 사실성을 크게 향상시키는 성과를 보였다.

또한, ID는 샘플 응답 수가 많아질수록 지속적인 성능 향상을 보이며, 이는 open-ended 생성 과제에 대해 “추론 시간 스케일링 법칙(inference-time scaling laws)” 의 가능성을 시사한다.

향후 연구에서 유망한 방향 중 하나는, speculative decoding (Leviathan et al., 2023; Sun et al., 2023)의 개념과 ID를 결합하여 → 특히 어려운 디코딩 스텝에서만 ID를 적용하는 전략이다.

또한, 현재 ID 구현은 각 디코딩 스텝마다 국소 최적의 선택(greedy) 을 통해 self-consistency 목적 함수(Eq. 8)를 근사하고 있다. 향후에는 이를 보다 정밀하게 근사하기 위해, beam search와 같은 기법을 도입하는 방향도 탐색할 수 있을 것이다.

Reference

https://openreview.net/pdf?id=gGWYecsK1U

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-272, Integrative Decoding: Improve Factuality via Implicit Self-consistency, ICLR 2025

◼ Comment

ABSTRACT

1 INTRODUCTION

2 METHOD

디코딩 목적 함수의 정식화

전체 워크플로우 요약

3 EXPERIMENTS

3.1 SETUP

3.2 주요 결과 (MAIN RESULTS)

3.3 샘플 응답 수 증가의 효과

3.4 디코딩 목적 함수에 대한 분석

언어적 일관성(Language Coherence) 평가

Self-consistency 평가

3.5 추론 효율성 분석 (ANALYSIS OF INFERENCE EFFICIENCY)

3.6 다양한 샘플링 전략에 대한 강건성 분석 (ANALYSIS OF ROBUSTNESS TO DIFFERENT SAMPLING STRATEGIES)

3.7 사례 분석 (CASE STUDY)

4 관련 연구 (RELATED WORKS)

5 결론 (CONCLUSION)

댓글

댓글 쓰기