◼ Comment

방법론 자체는 그럴싸하고 오? 하는 느낌이 든다

하지만 성능은 생각보다 애매한거 같은데
이게 실험이 빈약해서인거 같기도 하다
벤치마크도 살짝 애매하고, 적용해본 LLM 도 너무 없다.
즉 광범위한 실험으로 확장하는 것은 필수인 것 같다

비교 모델도 없다

다양한 환각 감소 디코딩 전략이 있는데 비교는 해야할거 같고

실험도 뜬금없이 샘플링 했을때 실험결과를 보이는데, 별 의미는 없어보인다
여기서 영감받은 논문은 비전-텍스트 모델 및 논문이라고 한다

즉 비전 연구하던 사람이 쓴 논문이라 뭔가 애매한거 같기도 싶기도 함

ICLR 2025에서 리젝됐지만 개인적으로는 아이디어는 좋아보이고 광범위하게 실험확장하고 논문 다듬으면 괜찮을거 같다.

방법론도 비슷하게 여러 개 시도해볼 수 있는 영감을 줘서 어쨌든 좋은 인상을 받음

Abstract

대규모 언어 모델(LLM)은 다양한 자연어 처리 과제에서 뛰어난 성능을 보였지만, 여전히 잘못되거나 사실과 다른 내용을 생성하는 "환각(hallucination)" 문제를 겪고 있다. 이는 의료 및 법률과 같은 중요한 분야에서 모델의 신뢰성을 심각하게 저하시킬 수 있다. 이에 본 논문은 새로운 추론 시점(inference-time)의 접근법인 Delta를 제안한다. Delta는 입력 프롬프트의 일부를 랜덤하게 마스킹한 뒤, 원본 프롬프트와 마스킹된 프롬프트로부터 생성된 출력 분포를 대조(contrastive)하는 방식으로 환각을 완화한다. 이 방법은 별도의 재학습이나 추가 데이터 없이도 추론 단계에서만 연산을 통해 작동한다. Delta는 SQuAD v1.1과 v2에서 각각 약 3% 및 6%의 성능 향상을 달성했으며, TriviaQA와 Natural Question의 샘플링 디코딩 방식에서도 각각 7% 및 2%의 성능 개선을 보였다. 특히 SQuAD v2의 'no-answer' 항목 정확도를 10% 이상 개선하는 등, 문맥적 모호성으로 인해 발생하는 환각 문제에 효과적인 것으로 나타났다. 결과적으로 Delta는 실제 응용 환경에서 LLM의 환각을 줄일 수 있는 효율적이고 확장 가능한 방법이다.

1 INTRODUCTION

대규모 언어 모델(LLMs)의 급속한 발전(Brown et al., 2020)은 텍스트 생성, 자연어 처리 및 다양한 실제 응용 분야에서 괄목할 성과를 이루었다(OpenAI et al., 2024). 방대한 데이터와 복잡한 아키텍처를 통해 번역, 요약, 대화형 인공지능 등의 필수적인 도구로 자리잡았다(McKenna et al., 2023). 그러나 LLM의 확률적이고 비결정적인 특성으로 인해 때로는 설득력 있어 보이지만 실제로는 사실이 아니거나 허구인 "환각(hallucination)" 콘텐츠를 생성하는 문제가 발생한다(Xu et al., 2024). 이러한 환각 현상은 특히 의료, 법률 자문, 과학 연구와 같이 정확성과 신뢰성이 매우 중요한 분야에서 심각한 문제가 될 수 있다.

LLM의 환각 문제는 훈련 과정에서 학습된 패턴에 의존하기 때문에 발생하며, 입력 데이터나 실제 사실에 의해 지지되지 않는 결과를 생성할 때 나타난다(Huang et al., 2023). 이는 LLM이 실시간 시스템 및 중요한 응용 프로그램에 점점 더 많이 통합됨에 따라 반드시 해결해야 할 과제이다. 이에 본 논문은 추론 시점에서만 작동하는 새로운 환각 완화 방법인 Delta를 제안한다. 기존의 접근법(Ji et al., 2023; Li et al., 2023b; Ouyang et al., 2022)이 모델 재학습이나 추가 데이터를 요구한 반면, Delta는 오직 추론 시점에만 작동하여 계산 효율성이 뛰어나고 실시간 시스템에 쉽게 적용 가능하다. Delta의 핵심 혁신은 입력 텍스트를 마스킹한 뒤, 마스킹되지 않은 입력과의 출력 차이를 이용하여 사실적이고 신뢰할 수 있는 결과를 걸러내는 "대조적 디코딩(contrastive decoding)"을 활용한다는 점이다(Li et al., 2023a; Chuang et al., 2024).

Delta는 시각-언어 모델에서 시각적 입력에 가우시안 잡음을 추가하여 환각을 완화한 Leng et al. (2024)의 접근법에서 아이디어를 얻었다.

하지만 텍스트 입력에는 잡음을 직접 적용하는 것이 어렵기 때문에, Wettig et al. (2023)이 제안한 랜덤 마스킹 전략을 사용하여 입력 문장의 일부 토큰을 가려 모호성을 생성하는 방식으로 이를 해결하였다.
이를 통해 마스킹된 입력과 마스킹되지 않은 입력 간의 모델 예측을 비교함으로써 환각 콘텐츠를 더욱 효과적으로 필터링한다.
이 논문의 핵십이고 비전쪽에서 먼저 시도된게 있었구나? 임베딩단에서 noise 넣는거 해보면 좋을거 같긴한데..
simcse 처럼 dropout 활용도 괜찮을거 같은데 llm은 dropout이 없는 경우가 많은듯

실험 결과 Delta는 질문 응답 정확도에서 뛰어난 성능 향상을 보였다. 구체적으로, SQuAD v1.1과 v2 데이터셋(Rajpurkar et al., 2016)에서 각각 약 3%, 6%의 개선을 달성했으며, 특히 SQuAD v2의 ‘정답 없음(no-answer)’ 정확도에서는 14.53% 포인트의 개선을 기록했다. 더욱 어려운 질문 응답 데이터셋인 TriviaQA(Joshi et al., 2017)와 Natural Questions(Kwiatkowski et al., 2019)에서도 각각 7%와 2%의 성능 향상을 보이며 Delta의 견고성과 환각 완화 능력을 입증했다.

다만 Delta의 근본적인 한계는 명시적인 문맥 정보가 없는 작업에서는 성능 개선 효과가 미미하다는 점이다. 예컨대, CommonsenseQA(Talmor et al., 2019)나 MMLU와 같은 일반 지식이나 암묵적 지식에 크게 의존하는 데이터셋에서는 거의 개선 효과를 보이지 않아, 이 접근법이 명확한 문맥 기반의 시나리오에 특히 적합하다는 점을 나타낸다.

잘 작동하는 테스크들이 따로 존재하는듯?
명시적인 문맥정보가 있을때만 유용한가봄

2 관련 연구

최근 연구들은 대규모 언어 모델(LLMs) 및 대규모 시각-언어 모델(LVLMs)에서 발생하는 "환각(hallucination)" 문제를 완화하는 데 초점을 맞추고 있다(Hinck et al., 2024). 환각은 모델이 부정확하거나 관련 없는 출력을 생성하는 현상으로, 특히 시각-언어 모델에서는 학습 데이터에 내재된 언어적 사전 지식이나 편향에 과도하게 의존할 때 발생한다. 예를 들어, LVLM에서는 학습 데이터에서의 객체 동시 등장 편향 때문에 이미지에 실제로 존재하지 않는 객체를 예측하는 "객체 환각(object hallucination)"이 나타날 수 있다. 이를 해결하기 위해 시각적 대조 디코딩(VCD), 지시어 대조 디코딩(ICD) 등의 접근법이 개발되었다.

시각적 대조 디코딩(Visual Contrastive Decoding, VCD) 방법은 원본과 왜곡된 시각 입력으로부터 생성된 출력을 서로 비교하여 객체 환각을 줄이는 것을 목표로 한다. 이 방식은 추가적인 학습이나 외부 사전학습 모델 없이 작동하기 때문에 계산 효율성이 뛰어나다. VCD는 가우시안 노이즈와 같은 시각적 불확실성을 도입하여, 모델이 학습 데이터 내의 언어적 사전 지식이나 통계적 편향에 지나치게 의존하는 상황을 식별하고 완화함으로써 환각 문제를 감소시킨다(Leng et al., 2024).

마찬가지로, 지시어 대조 디코딩(Instruction Contrastive Decoding, ICD) 기법은 다중 모달(multimodal) 과제에서 지시어 교란을 도입하여 환각 문제에 대응한다. 이 방법은 모델의 시각 및 텍스트 입력 간의 다중 모달 정렬(multimodal alignment) 신뢰도를 조정하여, 환각된 토큰과 실제 관련된 토큰을 구별하는 데 도움을 준다. 지시어 교란으로 영향을 받은 토큰에 대조적 패널티를 적용하여, 특히 복잡한 시각 맥락에서 환각 출력을 효과적으로 줄인다(Leng et al., 2024).

추가적으로, Shi et al. (2024)가 제안한 문맥 인식 디코딩(Context-aware Decoding, CAD) 기법은 모델의 출력 확률을 조정하여 주어진 문맥의 유무에 따라 생성된 출력 간의 차이를 증폭시키는 방식으로, 본 논문의 Delta 기법과 유사한 결과를 보여주었다. 이 대조적 접근법은 텍스트 생성 시 모델이 문맥 정보를 우선시하도록 유도한다. CAD는 별도의 추가 학습 없이도 사전 훈련된 언어 모델에 적용 가능하지만, 주로 문맥 기반의 데이터셋에 국한되어 Delta 방법보다 일반성이 떨어진다는 차이점이 있다. Delta 방법은 이론적으로 모든 종류의 텍스트 입력에 적용 가능하다.

이러한 접근법들은 시각과 언어 처리를 통합하는 모델에서 환각을 완화하기 위한 대조적 메커니즘 및 세밀한 다중 모달 정렬 기술을 탐구하는 연구 흐름의 일부이다. 앞으로의 연구는 다양한 유형의 다중 모달 과제에서 모델의 신뢰성을 더욱 향상시키기 위한 견고한 메커니즘을 개발하는 방향으로 진행될 것으로 기대된다.

3 방법론

본 연구에서는 텍스트 기반 대규모 언어 모델(LLM)의 환각 문제를 효과적으로 완화하는 새로운 방법인 Delta를 제안한다. Delta의 핵심 아이디어는 추론(inference) 과정 자체를 조작하여 환각 문제를 해결하는 것이다.

구체적으로, 본 방법은 표준적인 추론 절차(Equation 1 참조)를 통해 모델에서 출력 토큰을 생성하는 방식에서 출발한다. 특히 Leng et al. (2024)의 가설에서 영감을 얻었는데, 불완전하거나 정보가 결여된 프롬프팅(prompting)이 환각 효과를 증폭시킨다는 점에 착안하여, 이를 완화하기 위해 "대조적 디코딩(contrastive decoding)" 접근법을 활용하였다.

Delta는 입력의 일부 정보를 랜덤하게 마스킹(masking)한 버전과 원본 입력의 결과를 서로 비교함으로써 불완전한 정보로 인한 환각 가능성을 동적으로 조정한다.

보다 구체적으로 설명하면, 입력 토큰을 무작위로 마스킹할 경우 모델은 환각된 정보가 포함된 출력을 생성할 확률이 높아진다.
이때 마스킹된 입력에서 생성된 환각된 로짓(logit)을 원본 입력에서 생성된 로짓으로부터 빼줌으로써, 환각 영향이 줄어든 "깨끗한(clean)" 로짓을 추출한다.
이 과정은 환각 가능성을 크게 감소시키며(Figure 1 참조), 문맥 의존적인 과제에서 보다 정확하고 신뢰할 수 있는 출력을 생성하는 데 도움을 준다.

3.1 언어 모델 디코더에서의 추론

대규모 언어 모델(LLM)의 추론 과정은 이전에 생성된 토큰을 기반으로 시퀀스에서 다음 토큰을 예측하는 작업을 수행한다. 입력 시퀀스 $x$ 와 생성된 토큰 $y$ 가 주어질 때, 결합된 시퀀스는 다음과 같이 표현할 수 있다:

$z = [x_0, x_1, \dots, x_{n-1}, y_1, \dots, y_{t-1}]$

여기서 $n$ 은 시퀀스 내의 인덱스이며, 시점 $t$ 에서 다음 토큰 $y_t$ 에 대한 조건부 확률은 다음과 같이 모델링된다:

이 식에서 모델은 매개변수 $\theta$ 를 사용하여 로짓(logit)을 계산하고, 이를 통해 순차적으로 토큰을 생성한다. 이러한 과정은 각 토큰이 이전의 모든 토큰을 조건으로 삼아 생성되는 텍스트 생성과 같은 자기회귀적(autoregressive) 과제에서 필수적이다.

식은 맞는데 뭔가 표현이 아마추어느낌ㅋㅋ?

3.2 텍스트 마스킹(masking)이 환각에 미치는 영향

대규모 언어 모델에서 입력 텍스트의 일부를 마스킹하는 것은 환각(hallucination)을 악화시킬 수 있다. 예를 들어, 다음과 같은 문장을 생각해보자.

"테이블 위에 곰팡이 핀 바나나가 있다. 바나나의 색깔은 ___."

만약 여기서 "곰팡이 핀(moldy)"이라는 단어가 마스킹되어 "MASK" 토큰으로 대체되면 문장은 다음과 같이 된다.

"테이블 위에 MASK 바나나가 있다. 바나나의 색깔은 ___."

이 경우, 사전 학습된 지식에 크게 의존하는 모델은 바나나와 흔히 연관된 "노란색(yellow)"이라는 단어에 높은 로짓 값을 부여할 가능성이 높다.

그러나 원래 문맥을 고려하면 정확한 답은 "갈색(brown)"이어야 한다.
이는 모델이 중요한 맥락 정보를 잃었을 때, 학습 데이터에서 빈번히 나타나는 일반적인 연관 관계(바나나 = 노란색)로 되돌아가 버리는 경향 때문에 발생하는 현상이다.
이로 인해 사실과 다르거나 잘못된, 즉 "환각된" 출력이 나타날 수 있다.
제안한 방법론이 작동한다는 예시이기도함.
근데 그럴거면, 마스킹을 적절한 위치에 해야하는거 아닌가? 싶기도함

이러한 문제의 근본 원인은, 모델이 사전 학습(pre-training) 과정에서 습득한 일반적 지식을 사용하여 빠진 맥락을 메우려는 성향에 있다.

즉, 특정 맥락이나 시각적 입력이 주어지지 않으면, 모델은 학습 단계에서 흔히 봤던 패턴(예: 바나나는 노란색이다)에 의존하게 된다.
이렇게 디폴트(default) 연관성을 사용하는 것은 입력에 근거하지 않고, 일반화된 패턴을 기반으로 답을 생성하게 되어 항상 정확하지 않을 수 있다.
이러한 현상은 그림 1에 나타난 바와 같이, 마스킹이 모호성을 유발하거나 필수적인 정보를 제거할 때 발생하며, 결과적으로 모델은 문맥상 타당해 보이지만 잘못된 응답을 생성하게 된다.

3.3 텍스트 시퀀스 마스킹(masking)

이 과정에서는 입력 시퀀스 내의 일부 토큰을 무작위로 마스킹(masking)하여 모호성을 생성한다. 길이가 $n$ 인 입력 시퀀스 $x = [x_0, x_1, \dots, x_{n-1}]$ 가 주어졌을 때, 사전에 정의된 마스킹 비율에 따라 일부 토큰이 대체된다. 구체적으로 마스킹될 토큰들은 무작위로 선택되며, 총 마스킹 토큰 수는 다음과 같이 결정된다:

m = \lfloor r_{\text{mask}} \cdot n \rfloor,\quad r_{\text{mask}} \in [0,1]

여기서 $r_{\text{mask}}$ 는 마스킹 비율(masking ratio)을 나타낸다. 마스킹될 토큰의 인덱스는 무작위로 선택되어 집합 $I_{\text{mask}} = \{i_0, i_1, \dots, i_m\}$ 으로 구성된다.

MLM 학습할때처럼, 주어진 입력 시퀀스에서 일부 비율에 해당하는 만큼 마스킹 토큰개수를 정한다는 것

마스킹된 시퀀스는 다음 식과 같이 표현된다:

이 새로운 시퀀스에서 선택된 위치의 원본 토큰은 MASK 토큰으로 대체되고, 나머지 토큰은 변경되지 않고 유지된다.

이러한 마스킹된 시퀀스가 대규모 언어 모델(LLM)에 입력되면, 모델은 불완전하거나 결여된 맥락을 기반으로 토큰을 예측하게 된다.
이는 모델이 훈련 데이터를 기반으로 통계적으로 가능성이 높은, 그러나 원본 맥락과는 반드시 일치하지 않는 "환각된(hallucinated)" 단어들을 생성하게 만드는 결과로 이어질 수 있다.

3.4 대조적 디코딩(Contrastive Decoding)

Delta 방법은 생성된 출력에서의 환각을 줄이고 추론 정확도를 높이기 위해 "대조적 디코딩(contrastive decoding)"을 사용한다. 핵심 아이디어는 토큰 생성 과정에서 마스킹된 입력 시퀀스와 마스킹되지 않은 원본 입력 시퀀스에서 생성된 예측값을 서로 비교하는 것이다. 각 시점 $t$ 에서 모델은 마스킹되지 않은 시퀀스 $z = [x_0, \dots, x_{n-1}, y_1, \dots, y_{t-1}]$ 와 이를 마스킹한 버전 $\text{mask}(z)$ 을 조건으로 하여 다음 토큰 $y_t$ 를 생성한다. (여기서 $n$ 은 시퀀스 $x$ 의 길이를 의미한다.) 이러한 대조적 디코딩 과정은 다음과 같은 식으로 공식화된다.

여기서 $\alpha \in [0,1]$ 는 마스킹된 로짓(logit)의 상대적 중요도를 조정하는 조정 가능한 하이퍼파라미터이다. 마스킹된 입력으로부터 생성된 로짓은 환각을 유발하는 경향이 강하므로, 이를 원본 로짓에서 빼줌으로써 환각된 토큰 값의 영향을 효과적으로 감소시킬 수 있다.

동시에 원본 입력의 로짓은 $(1+\alpha)\cdot\text{logit}_\theta(y_t \mid z)$

로 강화되어, 모델이 마스킹되지 않은 맥락으로부터 보다 현실적이고 신뢰할 수 있는 예측을 우선적으로 하게 된다.
결과적으로 환각되지 않은 토큰의 확률이 증가하여 보다 정확한 출력을 생성할 수 있다.
즉, 더 높은 α값은 더 높은 수준의 환각을 걸러내고, 환각되지 않은 토큰의 가중치를 더욱 증폭시킬 수 있음을 의미한다.

최종 토큰 확률은 그냥 단순히 뺼셈으로 계산한다.

여기까지 봤을때 괜찮은 아이디어 같은데?

3.5 적응형 타당성 제약 (Adaptive Plausibility Constraints, APC)

언어 모델이 의미적으로 부정확하거나 불균형한 시퀀스를 생성하지 않도록 하기 위해, 본 연구에서는 Li et al. (2023a)에 기초한 **적응형 타당성 제약(Adaptive Plausibility Constraints, APC)**을 적용하였다.

이 기법의 목적은 특정 임계값(β)에 따라 확률이 일정 수준 이상으로 높은 토큰을 집합 $V_{\text{head}}$ 으로 구성하는 것

이 과정을 공식화하면 다음과 같다.
즉 토큰이 생성될 가장 높은 확률에 일부 값 (beta)을 곱한 수준보다 높은 토큰들 중에서만 고르겠다는 것
이거는 contrastive decoding 이전에 미리 산정해두는 것
APC: Contrastive decoding: Open-ended text generation as optimization

V_{\text{head}}(x_{<t}) = \{ x_t \in V : P_{\theta}(x_t \mid x_{<t}) \geq \beta \cdot \max_{w} P_{\theta}(w \mid x_{<t}) \}

APC를 적용하면, Delta 방법을 사용하더라도 모델은 의미적으로 정확하고 맥락에 맞는 문장을 생성할 수 있게 된다.

3.6 대조적 디코딩을 위한 Delta 계산 과정

마지막으로, Delta 방법은 대조적 디코딩(contrastive decoding) 과정에서 계산된다.

이 방법의 핵심 아이디어는 입력 시퀀스의 마스킹되지 않은 버전과 마스킹된 버전에서 예측된 로짓(logit)을 대조하여, 토큰 생성을 위한 로짓 값을 조정하는 것이다.

각 시점 $t$ 에서 다음 토큰 $y_t$ 는 다음의 조건부 식을 통해 샘플링된다.

여기서 $z$ 는 이전에 생성된 토큰을 포함한 시퀀스이며, 이 시퀀스는 타당한(plausible) 시퀀스 집합인 $V_{\text{head}}(x_{<i})$ 와 비교하여 타당성을 판단받는다.

만약 $z$ 가 타당한 시퀀스에 속한다면, 모델은 수정된 로짓(logit)을 사용하여 토큰을 생성하게 된다. 이때 마스킹되지 않은 시퀀스의 로짓 기여도는 $(1+\alpha)$ 만큼 증폭되고, 마스킹된 시퀀스의 로짓 기여도는 $\alpha$ 만큼 감쇄된다. 그 결과 계산된 로짓은 softmax 함수를 통과하여 다음 가능한 토큰들에 대한 확률 분포로 변환된다.

만약 시퀀스 $z$ 가 $V_{\text{head}}(x_{<i})$ 에 속하지 않는다면, 해당 토큰을 생성할 확률은 0으로 설정된다.

즉 원래 logit - 마스킹 logit을 통해 토큰을 결정하려고 하는데
3.5에서 말했듯이 기본적인 디코딩 확률이 높은 것들 중에서 고르겠다는 것이다
아마 이렇게 안하면 너무 이상한 토큰이 골라질 확률이 있기 때문인듯?

이와 같은 대조적 디코딩 메커니즘을 통해 모델은 잠재적으로 잘못된 토큰보다 문맥적으로 더 타당한 토큰 예측을 선호하게 되어, 환각(hallucination)을 감소시키는 성능을 향상시킬 수 있다.

4 실험 설계

Delta 방법의 실험은 다양한 질문 답변(question-answering, QA) 데이터셋과 상식 기반 평가 데이터셋에서 진행되었으며, 이 방법의 환각 완화 성능을 평가하기 위해 설계되었다. 또한 이 연구에서는 Delta 방법을 본 연구에 사용된 모델에 적용했을 때 나타나는 특성들을 탐구하기 위한 몇 가지 실험적 관찰도 제시한다.

4.1 평가 데이터셋

Delta 방법을 종합적으로 평가하기 위해, 다양한 측면에서 언어 모델의 성능을 측정하는 여러 가지 데이터셋을 선정했다. 이 데이터셋들은 문맥 포함 여부, 질문 유형 및 난이도 등으로 구분되며, 본 연구 접근법의 효과성을 평가하는 견고한 기반을 제공한다.

Stanford Question Answering Dataset (SQuAD)
SQuAD 데이터셋(Rajpurkar et al., 2016)은 기계 독해(machine reading comprehension) 모델을 훈련하고 평가하는 데 널리 사용된다. SQuAD v1.1은 10만 개 이상의 질문-답변 쌍으로 구성되며, 답변은 텍스트 내에 직접 존재한다. 반면 SQuAD v2는 5만 개 이상의 "답변할 수 없는(unanswerable)" 질문들을 추가로 포함한다. 이와 같은 추가적 도전 요소는 SQuAD v2를 환각 평가를 위한 특히 가치 있는 데이터셋으로 만든다. "답변할 수 없는" 질문들을 통해 모델이 관련 정보가 없을 때 올바르게 답변을 생성하지 않는 능력을 평가할 수 있다.

TriviaQA
TriviaQA(Joshi et al., 2017)는 트리비아 퀴즈로부터 얻어진 65만 개 이상의 질문-답변 쌍으로 구성된 대규모 데이터셋이다. 이 데이터셋은 Wikipedia 문서나 웹 문서처럼 길고 복잡한 텍스트에서 정답을 찾아야 하기 때문에 SQuAD보다 더 어려운 난이도를 가지고 있다. 이 데이터셋은 길고 구조가 덜 정형화된 텍스트로부터 정답을 찾아내는 모델의 능력을 평가한다.

Natural Questions (NQ)
Google의 Natural Questions(NQ) 데이터셋(Kwiatkowski et al., 2019)은 실제 사용자가 Google 검색에서 자연스럽게 질문한 내용을 기반으로 한다. 정답은 긴 Wikipedia 문서에서 추출되며, 문서 중 극히 일부분만 정답과 직접적으로 관련이 있다. 이 데이터셋은 개방형(open-domain) 질문 답변 능력을 평가하며, 최소한의 직접적 문맥을 가진 긴 문서를 검색하고 이해해야 하는 능력을 테스트한다.

위에서 언급된 네 가지 데이터셋은 모두 문맥 정보를 포함하고 있으며, 본 연구의 방법이 이들 데이터셋에서 상당한 성능 향상을 보일 것으로 예상한다. 이와 대비하여, 문맥 정보가 없는 두 가지 표준적인 질문 답변 데이터셋도 준비하였으며, 이들에서는 본 연구 방법의 성능 향상이 제한적일 것으로 예상한다.

CommonsenseQA
CommonsenseQA(Talmor et al., 2019)는 상식 추론 능력을 평가하는 데이터셋이다. 이는 다지선다(multiple-choice) 형식으로 구성되어 있으며, 각 질문은 표면적인 정보만으로는 쉽게 얻을 수 없는 기초적 상식 이해력을 테스트한다. 모델이 표면적인 정보 이상의 추론을 통해 상식을 이용해 질문에 답해야 한다.

MMLU (Massive Multitask Language Understanding)
MMLU(Hendrycks et al., 2021)는 인문학, STEM(과학, 기술, 공학, 수학), 사회과학 등 다양한 영역에 걸쳐 57가지 주제를 다루는 포괄적 벤치마크이다. 이 데이터셋은 다양한 학문 분야에 걸친 모델의 지식을 평가하기 위해 설계되었으며, 일반적 지식뿐 아니라 특정 주제에 대한 이해 능력까지 광범위하게 측정하는 데 적합하다.

뭔가 벤치마크셋이 아쉬운 느낌?

4.2 실험 환경 설정

실험의 기준 모델(baseline)은 4비트 양자화(quantization)가 적용된 Llama 3.1 8B Instruct 모델(Dettmers et al., 2023) 을 사용했다.

다양한 LLM을 써봐야하는거 아닐까?

동일한 모델 환경을 Delta 방법의 실험에도 적용하였으며, 모든 실험에서 하이퍼파라미터는 다음과 같이 고정했다.

마스킹 비율( $r_{\text{mask}}$ ): 0.7
로짓 비율( $\alpha$ ): 0.3
타당성 제약( $\beta$ ): 0.1
MASK 토큰: 시퀀스 종료 토큰(end-of-sequence, eos) 사용

실험은 두 가지 유형으로 나누어 진행되었다.

즉, 샘플링(sampling)을 사용하는 실험과 샘플링을 사용하지 않는 실험으로 구분된다.
샘플링이 적용된 실험에서는 온도(temperature)를 1로 설정하여, 샘플링 여부가 Delta 방법의 성능에 어떤 영향을 주는지를 관찰하고자 하였다.

5 실험 결과

Delta 방법의 효과성을 평가하기 위해, SQuAD v1.1 및 v2, TriviaQA, Natural Questions 등 다양한 질문-답변(QA) 데이터셋에서 종합적인 실험을 수행하였다. 실험 결과는 Table 1에 요약되어 있으며, 이 데이터셋들 전반에서 Delta 방법이 성능 향상을 이뤄낸 것을 보여준다.

5.1 SQuAD v1.1 및 SQuAD v2

SQuAD v1.1에서 Delta 방법은 성능 향상에 뚜렷한 효과를 보였다. 샘플링을 적용한 경우와 그렇지 않은 경우 각각에서 Delta는 61.95 및 61.82의 정확 일치 점수(Exact Match, EM)를 기록하였다. 이는 베이스라인 모델 대비 각각 4.44 및 3 퍼센트 포인트의 향상을 나타내는 결과로, 문맥 내에서 정확한 답변을 추출하는 모델의 성능을 정교하게 개선하는 Delta 방법의 잠재력을 잘 보여준다. 또한 정확 일치 점수 외에 F1 점수에서도 눈에 띄는 개선이 나타났으며, 이는 Delta 방법이 문맥 기반 환경에서 강력한 성능을 보이며 환각 현상을 효과적으로 억제한다는 점을 강조한다.

더욱 도전적인 데이터셋인 SQuAD v2에서도 Delta 방법은 우수한 성능을 나타냈다. 이 데이터셋은 정답이 없는 질문들이 포함된 더 어려운 환경을 제공하는데, Delta 방법은 샘플링 및 비샘플링 상황 모두에서 베이스라인 모델보다 약 6 퍼센트 포인트의 정확 일치 점수를 상회하며 다양한 설정에서의 뛰어난 적응성을 보였다. 특히 "정답 없음(no answer)" 카테고리에서 현저한 성능 향상을 기록했는데, 샘플링 상황에서는 14.53 퍼센트 포인트, 비샘플링 상황에서는 11.81 퍼센트 포인트 만큼 정확 일치 점수를 높이는 결과를 보였다. 이 결과는 Delta 방법이 문맥이 명확한 정답을 지원하지 않을 때 특히 효과적이며, 환각을 줄이고 오답 생성 가능성을 방지하는 능력이 탁월하다는 것을 나타낸다.

5.2 TriviaQA 및 Natural Questions

Delta 방법은 문맥 인식 질문 답변 능력을 평가하기 위해 TriviaQA 및 Natural Questions 데이터셋에서도 실험을 진행하였다.

실험 결과, 샘플링의 온도(temperature)를 높일수록 베이스라인과 Delta 모두의 성능이 유의미하게 향상되는 것을 관찰할 수 있었다.

구체적으로 샘플링을 적용했을 때 TriviaQA에서 7.84 퍼센트 포인트, Natural Questions에서 2.55 퍼센트 포인트의 개선을 보였다.

하지만 샘플링을 적용하지 않은 경우 Delta의 성능 향상은 상대적으로 미미했으며, 이는 TriviaQA와 같은 데이터셋이 여러 문단에서 정답을 추출하는 등 난이도가 높기 때문으로 해석된다.

연구진은 이러한 결과가 나타난 이유로 샘플링이 본질적으로 로짓(logit) 값이 낮은 토큰을 더 자주 선택하여 환각 가능성이 증가하는 특성을 갖기 때문이라고 설명한다.
Delta 방법은 환각된 토큰의 로짓 값을 낮추어 샘플링되지 않도록 방지하는 메커니즘을 가지므로, 문맥에 기반한 추론이 필요한 과제에서 성능이 더욱 뚜렷하게 개선된다는 것이다.
이로 인해 Delta 방법은 샘플링 디코딩이 적용된 생성 상황에서 더욱 명확한 성능 향상을 보였다.

샘플링을 적용한 과정을 생각해보면, 여기서도 APC?로 결국 확률 높은 토큰들만 고르는걸 강제하는건 똑같을거 같은데..

그럴거면 APC빼고 비교해야하는게 맞는거 아닐까?
여기서 주장하고자하는 논리에 굳이 샘플링 실험을 할 필요는 없어보이긴함

5.3 CommonsenseQA 및 MMLU

CommonsenseQA와 MMLU는 문맥이 풍부한 데이터셋들과 달리, 질문에 대한 추가적인 문맥 정보가 제공되지 않는 질문 답변 데이터셋이다. 따라서 모델은 답변을 생성할 때 오로지 사전 훈련(pre-training)된 지식에만 의존해야 한다. 이 차이점은 마스킹된 문맥 정보를 활용하여 환각을 줄이는 Delta의 접근법의 적용 가능성을 제한한다.

Table 2에 제시된 평가 결과는 CommonsenseQA에서 0.25 퍼센트 포인트, MMLU에서 0.29 퍼센트 포인트의 성능이 베이스라인에 비해 약간 감소했음을 나타낸다.

이러한 미미한 성능 저하는 Delta의 마스킹 방식이 외부 문맥 없이 사전 훈련 지식만으로 해결해야 하는 상황에서는 성능을 높이지 못하며 오히려 약간의 손실을 유발할 수 있음을 보여준다.

이 결과는 Delta 방법의 본질적인 한계를 명확히 나타낸다.

즉, Delta는 문맥이 명시적으로 제공되는 과제에서 환각을 효과적으로 줄이고 정확도를 높일 수 있지만, 외부 문맥이 없는 상황에서는 그 효과가 제한적이라는 것이다. 결
론적으로 Delta 방법은 내재된 지식이나 순수하게 사전 훈련된 파라미터에서의 추론보다는, 명확한 문맥 정보가 모델의 예측에 중요한 역할을 하는 응용 분야에 가장 적합하다고 할 수 있다.

Delta가 잘 작동하지 않은 실험 결과라고 보면댐.

명확한 문맥 정보가 있을때만 효과가 있다

6 제거 연구 (Ablation Study)

제거 연구(ablation study)에서는 마스킹 비율(masking ratio)과 로짓 비율(logit ratio, α)의 변화가 본 방법(Delta)의 성능에 어떤 영향을 미치는지 조사하였다. 실험은 SQuAD v1.1 데이터셋을 대상으로 진행되었으며, 샘플링을 적용하고 온도(temperature)는 1, β는 0.1로 고정한 환경에서 수행했다. 마스킹 비율은 0.3, 0.5, 0.7의 세 가지 값으로 설정했고, 로짓 비율(α)은 0.1부터 0.5까지의 범위에서 조정했다. 실험 결과는 성능 경향성을 직관적으로 보여주는 히트맵(heatmap)으로 요약되었다.

그림 2는 정확 일치 점수(exact match score)와 F1 점수의 히트맵을 나타낸다.

분석 결과, 다양한 파라미터 설정에 따라 성능 변동은 매우 미미했으며, 정확 일치 점수의 표준편차는 0.66, F1 점수의 표준편차는 0.21에 불과했다. 특히 모든 파라미터 조합에서 정확 일치 점수 기준 베이스라인(57.51)과 F1 점수 기준 베이스라인(71.74)을 초과하는 성능을 기록하였다.

이는 Delta 방법이 강력한 성능 견고성을 갖추고 있음을 나타내며, 광범위한 하이퍼파라미터 튜닝 없이도 꾸준히 좋은 성과를 낼 수 있음을 보여준다. 이 결과는 다양한 파라미터 값에 걸친 Delta 방법의 적응성과 신뢰성을 강조한다.

7 요약 및 향후 연구 과제

본 연구는 추가적인 미세조정(fine-tuning) 없이 대규모 언어 모델(LLM)의 환각(hallucination) 현상을 완화하는 추론 시점(inference-time) 기법인 Delta를 소개하였다. Delta는 입력 토큰의 일부를 무작위로 마스킹하여 환각 가능성이 높은 로짓(logit)을 식별하고, 이를 원본 로짓에서 빼는 방식을 사용해 환각의 영향을 효과적으로 감소시킨다.

다양한 실험 결과는 Delta 방법이 SQuAD, TriviaQA, Natural Questions와 같이 문맥이 풍부한 질문-답변(QA) 과제에서 뛰어난 성능 향상을 달성함을 입증하였다.

그러나 CommonsenseQA나 MMLU와 같은 문맥 정보가 없는 과제에서는 효과가 제한적이었다.
이는 외부 문맥 대신 사전 훈련된 지식에만 의존하는 경우 Delta의 영향력이 크지 않다는 점을 보여준다.
이러한 결과는 Delta가 문맥 의존적인 작업에 최적화된 강력한 기법임을 나타내며, 실제 응용 분야에서 환각 문제를 줄이기 위한 중요한 통찰을 제공한다.

Delta는 간단한 무작위 마스킹(random masking) 방식을 활용하며, 이 방식이 효과적임을 입증했지만 추가적으로 개선할 여지가 존재한다. 향후 연구는 보다 정교하고 적응적인 마스킹 전략 개발에 중점을 둘 예정이다. 특히 유망한 연구 방향은 균일하게 마스킹을 적용하는 것이 아니라 고유 명사나 핵심 용어와 같은 중요한 토큰을 우선적으로 마스킹하는 타겟 마스킹(targeted masking) 전략이다.

또한 품사 태깅(part-of-speech tagging)과 같은 기술을 활용하여 명사, 동사와 같이 정보 가치가 높은 토큰에 우선순위를 두는 방법도 추가적으로 탐구할 수 있다. 이러한 접근 방식들은 Delta 방법의 적응성을 더욱 강화하여, 다양한 질문-답변 환경에서도 견고한 성능을 발휘할 수 있도록 할 것으로 기대된다.

Reference

https://arxiv.org/pdf/2502.05825

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-276, Delta - Contrastive Decoding Mitigates Text Hallucinations in Large Language Models, Preprint 2025