◼ Comment

기존의 LLM을 가져와서 인퍼런스할때, 일부 hidden state에서의 벡터스페이스를 신뢰성있는 공간으로 옮겨서 환각을 줄이는 방법을 제안한다
Transformer 구조에서 어떤 layer와 head가 신뢰성에 중요하게 역할을 끼치는지 알아내기 위하여 일부 학습 데이터를 활용한다

즉 주어진 QA쌍에서 (l,r) = (layer, head)에 따라 hidden vector <-> label을 매핑하여 간단하게 분류기를 학습한다
(l,r)별 분류기의 성능을 확인하여 성능이 매우 높으면 해당하는 (l,r)이 중요하다는 것이고
실제 인퍼런스할때 top-k의 (l,r)에서의 vector을 변화시키는 방법이 ITI이다.

이동시킬 공간으로 2가지를 제시한다

프루브가 학습한 초평면(separating hyperplane)에 수직인 벡터
진실한 답변과 거짓 답변의 평균(centroid)을 연결하는 벡터
즉, (l,r)에서 학습데이터로 부터 구한 진실한 답변의 벡터들, 거짓된 답변의 벡터들을 모아볼 수가 있다.
쉽게 생각하면, 진실한 답변의 벡터들을 평균내서 이를 식2처럼 더해주면, 기존 벡터가 진실한 의미를 담게된다고 간주하는것 같음

실험결과를 보면, 모델 파라미터들을 따로 건드리지 않고

인퍼런스에선 쬐끔 추가연산이 있는 정도이고
성능은 전체적으로 다 오른다
물론 진실성관련해서는 큰 폭으로 오른다고 주장하고, 실제로 그래보인다

이러한 비교 접근법을 본 적은 없는데 참신한 연구로 생각된다

Abstract

우리는 대형 언어 모델(LLM)의 "진실성(truthfulness)"을 향상시키기 위해 설계된 추론 시간 개입(Inference-Time Intervention, ITI) 기법을 소개합니다. ITI는 제한된 수의 어텐션 헤드에서 특정 방향을 따라 모델의 활성화 값을 변경하는 방식으로 동작합니다. 이러한 개입을 통해 LLaMA 모델의 TruthfulQA 벤치마크 성능을 크게 향상시킬 수 있습니다.

특히, 명령어 기반 미세 조정된 LLaMA(Alpaca) 모델에 ITI를 적용하면, 진실성이 32.5%에서 65.1%로 향상되는 것을 확인하였습니다. 또한, 진실성과 유용성(helpfulness) 간의 트레이드오프가 존재하며, 개입 강도를 조정하여 이를 균형 있게 조절할 수 있음을 보여줍니다.

ITI는 최소한의 개입으로도 효과적이며 계산 비용이 낮은 기법입니다. 또한, RLHF(Reinforcement Learning from Human Feedback)와 같은 방법이 방대한 주석 데이터(annotation)를 필요로 하는 것과 달리, ITI는 단 몇 백 개의 예제만으로도 진실성을 높이는 방향을 찾아낼 수 있어 데이터 효율성이 높습니다. 우리의 연구 결과는 LLMs가 표면적으로는 거짓 정보를 생성하더라도, 내부적으로는 정보의 진실성을 판단할 수 있는 표현(representation)을 가지고 있을 가능성을 시사합니다.

코드: https://github.com/likenneth/honest_llama

1 Introduction

대형 언어 모델(LLM)은 겉보기에는 올바른 것처럼 보이는 텍스트를 생성할 수 있지만, 면밀히 검토해 보면 사소한 오류부터 심각한 "환각(hallucination)"(Shuster et al., 2021)까지 다양한 부정확성을 포함하는 경우가 많습니다(Figure 1). 이러한 오류는 정확성이 중요한 맥락에서 특히 문제가 됩니다.

언어 모델의 정확성을 높이는 도전 과제

LLM의 정확성을 향상시키는 것은 복합적인 문제입니다. 본 논문에서는 모델이 어느 정도 "정답을 알고 있음에도 불구하고" 표준적인 생성 방식이 이를 제대로 끌어내지 못하는 특정 유형의 오류에 집중합니다. 예를 들어, LLM 기반 시스템 사용자들은 동일한 질문이라도 문맥에 따라 잘못된 답변을 하거나 올바른 답변을 제공하는 경우가 있음을 발견했습니다(Wei et al., 2022).

여러 연구 결과는 LLM이 표면적으로 표현하는 정보보다 더 많은 사실을 "내부적으로 알고 있을 가능성"을 시사합니다.

Wang et al. (2021)는 인간 감독 없이 언어 모델로부터 고품질의 지식 그래프를 구축하는 방법을 제안했습니다.
Kadavath et al. (2022)는 언어 모델이 자신의 답변을 생성한 후 이를 높은 정확도로 자체 평가할 수 있음을 발견했습니다.
Saunders et al. (2022)는 생성과 판단의 차이(generation-discrimination gap, G-D gap) 개념을 도입하여, 모델의 자기 비판(self-critique) 능력을 활용해 답변을 개선하는 방식을 제안했습니다.
Burns et al. (2022)는 **언어 모델이 정답과 오답을 구분하는 선형 방향(linear directions)**을 학습할 수 있음을 밝혔습니다.

환각 검출을 하는 모델을 개발하여, 결국에는 llm 자신이 알고 있는 지식을 제대로 이끌어내는 방향으로 확장하려고하는 것

이러한 연구들은 언어 모델 내부에 현실의 진실성과 관련된 해석 가능한 구조(latent, interpretable structures)가 존재할 가능성을 보여줍니다. 이는 언어 모델의 부정확한 답변을 줄이는 데 활용될 수 있습니다.

모델이 "아는 것"과 "말하는 것"의 차이를 좁히는 방법

우리는 모델이 질문의 정답을 "알고 있음에도" 이를 생성하지 못하는 상황을 정의하고 측정하는 방법을 개발합니다. 이를 위해,

생성 정확도(generation accuracy): 모델이 실제로 출력하는 답변의 정확도
탐색 정확도(probe accuracy): 모델의 중간 활성화(intermediate activations)를 입력으로 하는 분류기를 사용하여 문장이 올바른지 판별하는 정확도

이 두 가지를 비교합니다. LLaMA 7B 모델을 TruthfulQA 벤치마크(Lin et al., 2021)에 적용한 결과, 탐색 정확도가 생성 정확도보다 40%나 높은 차이를 보였습니다. 이는 모델 내부에 진실성을 반영하는 정보가 존재하지만, 실제 출력을 생성할 때는 반영되지 않는다는 것을 시사합니다.

추론 시간 개입(Inference-Time Intervention, ITI) 소개

이 문제를 해결하기 위해, 우리는 **추론 시간 개입(Inference-Time Intervention, ITI)**이라는 기법을 제안합니다.

먼저, TruthfulQA 기준으로 높은 선형 탐색 정확도를 보이는 소수의 어텐션 헤드(attention heads)를 식별합니다.
그런 다음, 추론 시 해당 어텐션 헤드에서 진실성과 관련된 방향으로 활성화 값을 이동시킵니다.
이 과정을 생성이 끝날 때까지 자동 회귀적(autoregressive)으로 반복합니다.

ITI를 적용하면 TruthfulQA 벤치마크 성능이 크게 향상되며, 다른 세 개의 벤치마크에서도 소폭의 성능 향상이 확인되었습니다.

ITI와 기존 기법(RLHF, RLAIF) 비교

기존의 RLHF(Ouyang et al., 2022; Bai et al., 2022a; Menick et al., 2022) 및 RLAIF(Bai et al., 2022b) 기법은 사전 훈련된 언어 모델을 강화 학습(reinforcement learning)으로 미세 조정하는 방식입니다.

하지만 이 방법들은 엄청난 양의 주석 데이터(annotation)와 높은 계산 비용이 필요합니다.
또한, 모델이 인간 또는 AI 평가자를 만족시키도록 학습될 위험이 있습니다. 예를 들어, Perez et al. (2022)는 모델이 인간이 원하는 답변을 주기 위해 "아첨(sycophancy)" 전략을 사용할 가능성이 있음을 지적했습니다.

반면, ITI는

사전 학습된 모델을 수정하지 않고,
단순한 선형 개입(linear intervention)만으로도 성능을 크게 향상시키며,
데이터 및 계산 효율성이 높은 기법입니다.
인퍼런스 전략이기 때문에 모델을 건드리지는 않는다?

결론 및 기여

이 연구는 두 가지 주요 기여를 합니다.

**추론 시간 개입(ITI)**이라는 최소한의 개입 방식을 통해 모델이 "아는 것"과 "말하는 것" 간의 차이를 줄이는 기법을 제안합니다(섹션 3). ITI는 벤치마크 성능을 높이며, 데이터 및 계산 비용이 낮은 효율적인 방법입니다(섹션 4).
TruthfulQA 실험을 통해, 사전 학습 과정에서 언어 모델이 실제 세계의 진실을 어느 정도 반영하는 "세계 모델(world model)"을 내재적으로 학습했을 가능성을 보여줍니다.

우리는 ITI가 단독으로 LLM의 완전한 진실성을 보장할 수 없다고 주장하지 않으며, 보다 포괄적인 접근 방식의 일부로서 유용할 가능성이 있음을 강조합니다. 추가적인 연구 및 테스트를 통해 ITI는 보다 신뢰할 수 있는 언어 모델을 구축하는 중요한 요소가 될 수 있을 것입니다.

2 Related Work

대형 언어 모델(LLM)의 사전 훈련 이후 동작을 제어하는 다양한 방법 중에서, **추론 시간 개입(Inference-Time Intervention, ITI)**은 활성화 편집(activation editing) 범주에 속하며(Li et al., 2023; Hernandez et al., 2023), 조정 가능하면서도 최소한의 개입으로 효과를 낼 수 있는 장점을 갖고 있습니다.

이전 연구들은 "조정(steering)" 벡터—훈련된 벡터와 수동으로 선택된 벡터 모두—가 언어 모델에서 스타일 변환(style transfer)에 사용될 수 있음을 보여주었습니다(Subramani et al., 2022; Turner et al., 2023). 이는 모델의 가중치를 직접 변경하는 가중치 편집(weight editing) 방법과 대비됩니다(Meng et al., 2022; Ilharco et al., 2022; Orgad et al., 2023). 그러나 일부 가중치 편집 기법은 모델의 전반적인 견고성을 감소시킬 수 있음이 보고되었습니다(Brown et al., 2023; Hase et al., 2023).

ITI는 단 40개의 샘플만으로도 "진실성을 반영하는 어텐션 헤드(truthful heads)와 방향"을 찾아낼 수 있으며, 이는 강화 학습(RL) 기반 방법(Ouyang et al., 2022; Bai et al., 2022a; Ganguli et al., 2022)에서 요구하는 자원보다 훨씬 적은 양입니다. 활성화 변형(activation perturbation) 개념은 플러그 앤 플레이(plug-and-play) 방식의 제어 가능한 텍스트 생성 기법에서 유래되었으며(Dathathri et al., 2019; Krause et al., 2020; Li et al., 2022), 기존 방식은 반복적인 순전파(forward) 및 역전파(backward) 연산이 필요했습니다.

메커니즘 해석 가능성(Mechanistic Interpretability)과 ITI

메커니즘 해석 가능성(mechanistic interpretability)은 심층 신경망을 역설계(reverse engineer)하는 것을 목표로 하는 빠르게 성장하는 연구 분야입니다(Olah, 2022). Contrast-Consistent Search (CCS)(Burns et al., 2022)는 쌍(pairing)으로 이루어진 내부 활성화 값에서 논리적 일관성을 만족시키는 "진실한 방향(truthful directions)"을 찾아내는 기법을 제안했습니다. 하지만 이 방향성이 실제로 모델의 진실성 처리에 인과적(causal)인지, 아니면 단순히 상관관계(correlated)에 불과한지는 불분명합니다.

우리는 CCS의 접근 방식을 따르되, 내부 활성화 값에서 잠재적 지식을 직접 끌어내는 방식을 사용합니다. 그러나 CCS와 달리, 우리는 Lin et al. (2021)이 정의한 "실제 세계(real world)에 대한 문자 그대로의 진실성(literal truth)" 개념을 확장하여, 이러한 방향성이 모델의 최종 출력에 얼마나 인과적 영향을 미치는지를 탐구합니다.

우리는 ITI가 모델의 내부 표현(internal representation)에 미치는 영향을 메커니즘적으로 완전히 이해했다고 주장하지 않습니다. 하지만 이는 향후 연구에서 흥미로운 탐구 주제가 될 수 있을 것입니다.

3 Inference-Time Intervention for Eliciting Truthful Answers

대형 언어 모델(LLM)의 내부 작동 원리를 이해하는 데 상당한 발전이 이루어졌습니다(Burns et al., 2022; Li, 2023; Moschella et al., 2022). 기존 연구에서 반복적으로 나타나는 주요한 발견은 많은 언어 모델의 활성화 공간(activation space)이 해석 가능한 방향(interpretable directions)을 포함하고 있으며, 이러한 방향이 추론 과정에서 인과적인(causal) 역할을 한다는 점입니다.

이 개념을 바탕으로, 우리는 **언어 모델의 진실성을 향상시키는 방법으로 "추론 시간 개입(Inference-Time Intervention, ITI)"**을 제안합니다. ITI의 기본 아이디어는 사실적으로 올바른 문장과 연관된 활성화 공간 내 특정 방향을 식별한 후, 추론 과정에서 해당 방향으로 활성화 값을 이동시키는 것입니다(섹션 3.3). 본 논문에서는 이러한 연구 결과를 모델의 동작을 제어하는 기술로 변환하는 방법을 탐구합니다.

우리의 실험은 오픈소스 모델인 LLaMA(Touvron et al., 2023), Alpaca(Taori et al., 2023), Vicuna(Chiang et al., 2023)를 활용하여 진행되었지만, 이 개념은 GPT 스타일의 모든 시스템에 적용 가능합니다.

즉, 모델의 내부 활성화 값과 연산 과정에 접근할 수 있다면, ITI를 일반적인 맥락에서도 활용할 수 있습니다.

ITI를 적용하기 위해 필요한 두 번째 요소는 주석이 달린 질문-답변 쌍(annotated question-and-answer pairs) 데이터셋입니다. 이를 수학적으로 표현하면,

\{q_i, a_i, y_i\}_{i=1}^{N}, \quad y \in \{0,1\}

와 같은 형태로, 각 질문 $q_i$ 에 대한 답변 $a_i$ 가 제공되며, $y_i$ 는 답변이 올바른 경우 1, 그렇지 않은 경우 0을 나타냅니다.

이러한 데이터를 활용하여, 우리는 모델의 진실성을 결정하는 데 중요한 역할을 하는 어텐션 헤드(attention heads)와 활성화 방향(directions)을 식별합니다(섹션 3.2).

이러한 레이블링된 일부 데이터로 환각이 없도록 생성하는 attention head 및 activation 방향을 찾는 개념인가?

3.1 Setup

데이터셋

진실성(truth)의 개념을 실제 적용할 수 있도록 하기 위해, 우리는 TruthfulQA(Lin et al., 2021)를 선택했습니다. 이 데이터셋은 일부 인간도 잘못된 믿음(false beliefs)이나 오해(misconceptions)로 인해 낮은 성능을 보이도록 의도적으로 구성된(adversarially constructed) 벤치마크입니다.

총 817개의 질문이 포함되며, 38개 카테고리(예: 논리적 오류, 음모론, 일반적인 오해)를 다룹니다.
각 질문은 평균적으로 **3.2개의 진실한 답변(truthful answers)**과 **4.1개의 거짓 답변(false answers)**을 포함하며,
신뢰할 수 있는 온라인 소스에서 제공된 골드 스탠다드(gold standard) 답변도 포함되어 있습니다.

우리는 TruthfulQA 데이터를 답변 단위로 재구성하여 총 5,918개의 질문-답변(QA) 쌍을 만들고, 각각을 **이진 진실성 라벨(binary truthfulness label)**과 함께 정리하였습니다.

우리는 이 데이터셋이 "진실(truth)"이라는 단어의 모든 의미를 포함하지 않음을 강하게 강조합니다. 이는 본질적으로 불가능한 일입니다. 따라서, 본 연구에서는 **진실성의 특정 측면, 즉 "일반적인 인간의 오해를 피하는 것"**에 초점을 맞추었습니다.

TruthfulQA는 이 도전 과제에 대한 초기 연구에 적절한 벤치마크라고 판단됩니다. 그러나 이후 연구에서는 더 다양한 벤치마크에서 ITI를 테스트하는 것이 중요합니다(섹션 5.3에서 논의).

모델 아키텍처

연구의 맥락을 설정하고 수식을 명확하게 하기 위해, Transformer 아키텍처의 핵심 요소를 간략히 설명합니다.

Transformer의 핵심 요소는 **다중 헤드 어텐션(Multi-Head Attention, MHA)**과 다층 퍼셉트론(MLP) 레이어를 포함하는 여러 개의 Transformer 레이어로 구성됩니다.

1. 잔여 스트림(Residual Stream)과 토큰 임베딩

추론 과정에서 입력 토큰들은 고차원 벡터 공간에 임베딩되며, 이를

x_0 \in \mathbb{R}^{D_H}

로 나타냅니다.

이 벡터는 **잔여 스트림(residual stream)**을 시작하며, $x_0, x_1, ..., x_n$ 의 벡터 시퀀스로 이어집니다.
각 Transformer 레이어는 입력 벡터 $x_i$ 를 받아 연산을 수행한 후, 결과를 더하여 다음 벡터 $x_{i+1}$ 를 생성합니다.
최종적으로, 마지막 토큰 벡터가 **다음 토큰 확률 분포(next-token distribution)**로 변환됩니다.

2. 다중 헤드 어텐션(MHA)의 수식

각 Transformer 레이어에서 **다중 헤드 어텐션(MHA)**은 **H개의 독립적인 선형 변환(linear transformation)**으로 구성되며, MLP 레이어는 **비선형 연산(nonlinear operations)**을 담당합니다.

MHA의 수식은 다음과 같이 정의됩니다.

여기서:

$P^h_l \in \mathbb{R}^{D \times D_H}$ : 스트림 활성화(stream activation)를 **D차원의 헤드 공간(head space)**으로 변환하는 행렬
$Q^h_l \in \mathbb{R}^{D_H \times D}$ : 헤드 공간을 다시 원래 차원으로 되돌리는 행렬
$\text{Att}$ : 토큰 간 의사소통(communication with other input tokens)이 이루어지는 연산자

우리의 분석과 개입(ITI)은 어텐션 연산( $\text{Att}$ ) 이후, 하지만 $Q^h_l$ 연산 이전에 이루어집니다.
이 시점에서의 활성화 값을

x^h_l \in \mathbb{R}^D

로 정의합니다.

ITI의 개입 지점

ITI는 활성화 공간에서 진실성과 관련된 방향을 찾아내고, 해당 방향으로 활성화 값을 이동시키는 방식으로 동작합니다.

이를 통해 언어 모델이 내재적으로 보유한 진실한 정보가 최종 생성 출력에 더 잘 반영되도록 합니다.

multi-head self-attention을 하고 난후, 하나의 head로 합치기전에 활성화값을 바꾸는 전략인듯?

3.2 Probing for “Truthfulness”

기존 연구에서는 신경망의 활성화 공간(activation space) 내에서 해석 가능한 방향(interpretable directions)을 찾는 방법을 탐구해 왔습니다.

이에 따라, 우리는 Transformer 레이어의 활성화 공간 내에서 "진실성(truthfulness)"과 연관된 벡터가 존재하는지 조사합니다.

이를 위해, **프루빙(probing)과 직교 프루빙(orthogonal probing)**이라는 기존 기법을 적용합니다.

1. 네트워크에서 진실성은 어디에 표현되는가?

신경망의 내부 표현을 식별하는 표준적인 방법 중 하나는 "프루브(probe)" 기법입니다(Alain & Bengio, 2016; Tenney et al., 2019; Belinkov, 2016).

프루브의 개념:

신경망의 활성화 값을 입력으로 하는 **이진 분류기(binary classifier)**를 학습하여, 특정 입력 유형을 판별할 수 있는지 평가하는 방법
우리의 경우, 어텐션 헤드(attention head)에서 출력된 활성화 값이 "진실한 답변"을 유도하는지 여부를 구별하는 데 관심이 있음

프루브 모델 수식:

p_{\theta}(x^h_l) = \text{sigmoid}(\langle \theta, x^h_l \rangle)

$x^h_l \in \mathbb{R}^D$ : 레이어 $l$ 의 $h$ 번째 어텐션 헤드에서 생성된 활성화 값
$\theta \in \mathbb{R}^D$ : 프루브(분류기)의 가중치 벡터
프루브는 각 레이어의 각 어텐션 헤드마다 개별적으로 학습됨

데이터 수집 방법:

TruthfulQA 데이터셋의 질문-답변(QA) 쌍을 하나의 문자열로 연결
마지막 토큰(last token)에서의 어텐션 헤드 활성화 값을 추출
이를 통해, 각 레이어의 각 어텐션 헤드별 프루빙 데이터셋 $\{(x^h_l, y)_i\}_{i=1}^{N}$ 을 생성
데이터를 훈련 세트(80%)와 검증 세트(20%)로 랜덤 분할 후, 이진 선형 분류기를 학습
검증 정확도(validation accuracy)를 사용하여 각 어텐션 헤드가 TruthfulQA 성능과 얼마나 관련이 있는지 평가

즉 QA을 concat하여 마지막 토큰에서 레이어 l의 h번째 어텐션 xhl과 레이블을 매핑하여 데이터를 만듬

데이터를 split하여 학습과 검증을 시도함

특정(l, h)에 대해 성능이 좋다면 그 레이어 및 head가 진실성에 영향을 미친다라는 개념인듯?

2. 프루빙 실험 결과

이 실험을 통해 어텐션 헤드 간에 흥미로운 특화(specialization) 패턴이 나타남을 발견했습니다.

대부분의 어텐션 헤드는 무작위 수준의 성능(기본 정확도)만을 보임
하지만, 특정 어텐션 헤드는 매우 높은 정확도를 기록
- 예를 들어, 14번째 레이어의 18번째 어텐션 헤드는 검증 정확도가 **83.3%**로 가장 높음
또한, 레이어별 차이가 큼

진실성과 관련된 정보는 주로 초기~중간 레이어에서 처리되며,
각 레이어마다 일부 어텐션 헤드가 두드러지게 높은 성능을 보임(Figure 2(A))

3. "진실성" 개념의 기하학적 구조 시각화

우리는 또한 활성화 공간 내 "진실성(truth)" 개념이 어떻게 표현되는지 기하학적으로 시각화하고자 했습니다. 이를 위해, 활성화 공간의 차원을 2차원으로 줄이는 기법을 사용합니다.

진실성 방향(truthful direction) 정의

각 프루브(probe)의 **학습된 가중치 벡터 $\theta^h_l$ **를 정규화(normalization)한 후, 이를 **첫 번째 "진실한 방향(truthful direction)"**으로 정의합니다.

이 방향은 진실한 정보와 거짓 정보를 가장 잘 구분하는 방향이며, 가장 정보량이 많은(informative) 방향으로 볼 수 있습니다.
진실성에 큰 영향이 있는 (l,h) 학습된 벡터를 2차원으로 정규화하여 방향을 시각화했다?

직교 방향(orthogonal direction) 추가

하지만, "진실성"이 단 하나의 방향으로만 표현된다고 단정할 수 없습니다.
이를 확인하기 위해, 우리는 첫 번째 진실 방향과 직교(orthogonal)하는 두 번째 방향을 찾습니다.

Roger(2023)의 기법을 따라, 제약 조건 $\theta' \perp \theta$ 을 적용하여 두 번째 선형 프루브 $p_{\theta'}$ 를 학습
이 새로운 방향 $\theta'$ 은 첫 번째 방향과 직교하면서도, 진실과 거짓을 가장 잘 분리하는 방향
직교벡터또한 좋은 방향일 것이다?

4. 결과 해석 및 시각화

Figure 2(B)에서, 진실성과 거짓성을 나타내는 데이터 분포를 $\theta$ 와 $\theta'$ 방향에 투영하여 시각화했습니다.

두 개의 분포는 상당 부분 겹쳐 있음
그러나, 두 번째 직교 프루브( $p_{\theta'}$ )조차 무작위보다 높은 정확도를 기록
이는 "진실성(truth)"이 단 하나의 방향이 아닌, 다차원적인 서브스페이스(subspace) 내에서 표현됨을 시사

5. 결론 및 시사점

언어 모델의 활성화 공간 내에는 "진실성"과 연관된 방향이 존재
하지만, 이는 단일한 방향이 아니라 다차원적인 서브스페이스 내에 존재
ITI(추론 시간 개입)은 이러한 진실성을 반영하는 방향을 찾아내어 모델의 출력을 조정하는 방식으로 동작할 수 있음

이러한 결과는 활성화 편집(activation editing) 기법을 사용하여 LLM의 출력을 보다 신뢰할 수 있도록 개선할 가능성을 열어줍니다.

3.3 Inference-Time Intervention

위에서 수행한 프루빙(probing) 실험은 LLM이 어텐션 헤드(attention heads) 내부에서 진실성과 관련된 정보를 어떻게 처리하는지에 대한 통찰을 제공합니다.

뿐만 아니라, 진실성과 관련된 방향으로 활성화 값을 이동시키면, 벤치마크 데이터셋(TruthfulQA)에서 더 진실한 답변을 유도할 수 있음을 시사합니다.
이러한 아이디어가 바로 **추론 시간 개입(Inference-Time Intervention, ITI)**의 핵심 전략입니다.

1. ITI의 개입 방식: 단순한 "진실 방향 이동" 이상의 정밀한 조정

활성화 값을 단순히 진실한 방향(truthful direction)으로 이동시키는 것이 ITI의 기본 개념이지만, 실제 개입 과정은 좀 더 정교합니다.

프루빙 실험으로 얻은 중요한 가중치 벡터 (l,h)에 해당하는 방향으로 이동시키는것이 ITI

① 모든 어텐션 헤드에 개입하지 않음

Figure 2(A)에서 확인한 바와 같이, 모든 어텐션 헤드가 진실성과 관련된 것은 아님
따라서, 프루빙 검증 정확도가 가장 높은 K개의 어텐션 헤드만 선택하여 개입
이를 통해 모델의 원래 동작을 최소한으로 방해(minimally invasive)하면서 개입 효과를 극대화

이는 기존 Transformer 활성화 편집(transformer activation editing) 연구(Hernandez et al., 2023; Li et al., 2023)와 차별화되는 부분입니다.

기존 연구들은 MLP 연산 이후 잔여 스트림(residual stream) 전체를 조작
반면, ITI는 개별 어텐션 헤드에서 활성화 공간을 직접 조정하여 모델의 원래 동작에 대한 개입을 줄임

② 개입할 방향(shift direction) 선택의 정밀성

Figure 2(B)에서 보았듯이, 진실한 문장과 거짓 문장의 활성화 분포는 복잡한 기하학적 구조를 가짐
따라서, 활성화를 이동시킬 벡터를 결정하는 방법이 중요

가능한 두 가지 선택지:

프루브가 학습한 초평면(separating hyperplane)에 수직인 벡터
진실한 답변과 거짓 답변의 평균(centroid)을 연결하는 벡터

후자의 경우, 딥러닝에서 일반적으로 사용되는 **화이트닝(whitening) 및 컬러링(coloring) 변환(Ioffe & Szegedy, 2015; Huang & Belongie, 2017)**과 관련이 있음
두 방식의 비교 실험 결과 및 추가 논의는 Table 3 및 Appendix B에서 제시

2. ITI의 수식 및 적용 과정

Figure 3에서 ITI의 개입 과정을 요약할 수 있습니다.

① ITI 개입 과정

모든 어텐션 헤드를 프루빙 검증 정확도 기준으로 정렬
가장 높은 정확도를 보이는 상위 K개의 어텐션 헤드 선택
훈련 및 검증 데이터셋을 사용하여, 각 어텐션 헤드의 진실 방향(truthful direction) 상의 표준 편차(standard deviation) $\sigma^h_l$ 추정
다음과 같은 수정된 MHA 수식을 사용하여 추론을 진행:

x_{l+1} = x_l + \sum_{h=1}^{H} Q^h_l \left( \text{Att}^h_l (P^h_l x_l) + \alpha \sigma^h_l \theta^h_l \right)

여기서 $\theta^h_l$ 은 진실 방향(truthful direction) 벡터
개입되지 않은 어텐션 헤드에는 $\theta = 0$ 을 적용하여 영향 없음
이는 활성화 값을 진실한 방향으로 $\alpha$ 배만큼의 표준 편차만큼 이동시키는 것과 동일
다음 토큰 예측(next-token prediction)을 할 때마다 이 과정을 자동 회귀적으로(autoregressively) 반복

식을 보면, l번쨰 layer의 각 head의 attention 통과한 벡터에 θlh를 일부 더하는 형태이다. 그 두 벡터의 중간의 벡터를 계산할때 a*vec1+(1-a)*vec2 이처럼 계산되는 것을 생각해보면, 결국 θlh 방향으로 기존 벡터를 이동시키게 되는 것이다. 그 정도를 표준편차만큼 이동시킨다는 것이고, 이 표준편차라는 것은 훈련 데이터로부터 얻게된 값이라고 보면 될듯

단순히 이동강도를 표준편차로 정한것은 아니고 alpha값을 줘서 휴리스틱하게 개입하게 만들어 두었다.

모든 layer, head에서 진행하는건 아니고 프루브 실험결과에서 얻은 상위 K개의 어텐션 헤드에서만 진행한다고 함

ITI는 디코딩 알고리즘(beam search, nucleus sampling 등)과는 독립적으로 적용 가능

3. ITI의 주요 하이퍼파라미터: $K$ 와 $\alpha$

ITI에는 두 개의 주요 하이퍼파라미터가 존재합니다.

$K$ (개입할 어텐션 헤드의 개수)
- $K \in \mathbb{N}^+$
- 진실성과 가장 연관된 K개의 어텐션 헤드만 개입
$\alpha$ (개입 강도)
- $\alpha \in \mathbb{R}^+$
- 활성화 값을 이동시키는 강도(strength)
- 표준 편차를 기준으로 조정되며, $\alpha$ 값이 클수록 개입 강도가 강해짐

하이퍼파라미터 최적화

이론적으로 최적의 값이 명확하지 않음
실험적으로 하이퍼파라미터 스윕(hyperparameter sweep)을 수행하여 최적값 탐색
실제 적용에서는 사용자 니즈에 따라 조정 가능
- 만약 거짓된 답변을 강하게 억제하고 싶다면, $\alpha$ 값을 증가
- 반면, 모델의 유용성(helpfulness)도 중요한 경우, $\alpha$ 값을 낮게 설정하여 조정

4. 결론 및 시사점

프루빙 실험을 통해 LLM의 내부에서 진실성을 반영하는 어텐션 헤드를 식별할 수 있음
이를 활용하여 ITI(추론 시간 개입)는 진실한 방향으로 활성화 값을 이동시켜 모델의 출력을 조정
기존의 Transformer 활성화 편집 기법보다 덜 침습적(minimally invasive)이며, 모델의 원래 성능을 유지하면서 진실성을 향상시킬 수 있음
하이퍼파라미터 $K$ 와 $\alpha$ 를 조정하여, 사용자 필요에 따라 "진실성 vs. 유용성"의 균형을 맞출 수 있음

이 연구는 언어 모델이 내재적으로 보유한 진실성과 관련된 정보를 보다 효과적으로 활용할 방법을 제공하며, 향후 더 다양한 벤치마크에서 ITI의 성능을 테스트하는 것이 중요할 것입니다.

4 Experiments

4.1 Evaluation on TruthfulQA

우리는 **TruthfulQA 벤치마크(TruthfulQA benchmark)**에서 ITI(추론 시간 개입)의 성능을 평가합니다. TruthfulQA는 총 817개의 질문과 38개의 세부 카테고리로 구성되어 있으며, 두 가지 평가 트랙을 제공합니다.

객관식(Multiple-Choice, MC) 평가
- 주어진 질문에 대해 여러 후보 답변의 조건부 확률을 비교
- 가장 높은 확률을 가지는 답변이 진실한 경우, 1점으로 계산
생성(Generation) 평가
- 모델이 탐욕적 자동회귀 디코딩(greedy autoregressive decoding) 방식으로 직접 답변을 생성
- 선호되는 평가 방식은 인간 평가자(human annotators)가 모델의 답변을 참(True) 또는 거짓(False)으로 분류하는 것

그러나 인간 평가 비용이 높기 때문에, Lin et al. (2021)은 **GPT-judge(미세 조정된 GPT-3-13B 모델 2개)**를 활용하여 자동 평가하는 방법을 제안했습니다.

GPT-judge는 모델의 답변을 "진실/거짓" 및 "정보성 있음/없음"으로 분류
TruthfulQA에서 표준적인 평가 방식으로 사용됨(Nakano et al., 2021; Rae et al., 2021; Askell et al., 2021)

우리는 LLaMA-7B 모델(ITI 적용 전/후)로 생성된 답변을 대상으로 별도의 인간 평가를 수행했습니다.

GPT-judge는 진실성(truthfulness)을 다소 과대평가(overestimate)하는 경향을 보였으며,
반대로 정보성(informativeness)은 다소 과소평가(underestimate)하는 경향을 보였습니다.
그러나, GPT-judge가 특정 방법을 더 선호하는 경향은 발견되지 않았으며, 이는 ITI가 텍스트의 스타일을 급격하게 변경하지 않기 때문입니다.

TruthfulQA의 주요 평가 지표: True × Informative 점수

TruthfulQA의 핵심 평가지표는 "진실성 점수 × 정보성 점수" 입니다.
이는 모델이 얼마나 많은 질문에 대해 진실한 답변을 제공했는지를 평가하는 동시에,
단순히 "모르겠습니다"와 같은 비정보성 답변을 반복적으로 생성하는 문제를 방지하기 위함입니다.

ITI 개입 강도 조정 및 모델 변화 측정

우리는 ITI의 개입 강도( $\alpha$ )를 조정하기 위해 두 가지 추가 측정값을 보고합니다.

교차 엔트로피(Cross Entropy, CE)
- 언어 모델의 사전 학습(pretraining)에서 일반적으로 사용되는 표준 평가 지표
- CE 값이 낮을수록, 모델의 원래 학습 분포와 유사성이 유지됨을 의미
쿨백-라이블러 발산(Kullback–Leibler divergence, KL-divergence)
- ITI 적용 전/후의 "다음 토큰 예측 분포" 차이를 측정
- KL 값이 낮을수록, ITI 개입이 모델의 전체적 동작을 덜 변경했음을 의미

우리는 ITI의 진실성 향상 효과와 모델 원래 동작에 대한 최소한의 개입 간의 최적 균형을 찾기 위해, 하이퍼파라미터 $\alpha$ 를 조정합니다.

CE와 KL 계산에는 Open Web Text(Radford et al., 2017)의 일부를 사용했습니다.

4.2 Experimental Baseline Comparisons

우리는 ITI를 TruthfulQA에서 평가하는 것뿐만 아니라, 여러 기존 방법과 비교 실험을 수행하였습니다.

(1) 지도학습 미세 조정(Supervised Fine-Tuning, SFT)

RLHF(Ouyang et al., 2022)의 첫 번째 단계
질문을 프롬프트로 사용하여 "진실한 답변은 강화하고, 거짓 답변은 억제하도록" 모델을 크로스 엔트로피(Cross-Entropy) 손실로 미세 조정
그러나, 단독 적용 시 CE와 KL 값이 급격히 증가 → 모델의 원래 분포가 크게 변형됨
따라서, QA 데이터셋과 Open Web Text 사전 학습 데이터를 번갈아 학습(alternate training)하여 미세 조정
기존 연구에 따르면, SFT는 파라미터 효율적 미세 조정(parameter-efficient fine-tuning)의 상한(upper bound) 역할을 함(Zaken et al., 2021; Houlsby et al., 2019; Hu et al., 2021)

(2) 퓨샷 프롬팅(Few-Shot Prompting, FSP)

TruthfulQA에서 50-shot 프롬팅이 강력한 베이스라인으로 확인됨(Bai et al., 2022a)
문맥 증류(context distillation) 및 RLHF보다 성능이 뛰어남
프롬팅 방식은 추론 시간 개입(ITI)과 독립적인 방법
따라서, FSP + ITI 조합의 효과를 비교

(3) 명령어 미세 조정(Instruction Fine-Tuning, IFT)

LLaMA-7B 기반 IFT 모델(Alpaca, Vicuna)에서 ITI 적용 가능성 평가
ITI를 추가 적용하면, IFT 모델도 더욱 진실성을 높일 수 있는지 확인

(4) ITI 활성화 이동 방향 비교

ITI의 활성화 조작 방식에는 여러 가지 가능성이 있으며, 세 가지 방법을 비교했습니다.

프루브 가중치 방향(Probe Weight Direction)
- 3.2절에서 학습한 선형 프루브(Linear Probe) 방향을 따라 활성화 이동
- 이는 진실성이 높아질 확률을 최대로 증가시키는 방향으로 1회 경사 하강(gradient descent)하는 것과 동일
질량 평균 이동(Mass Mean Shift)
- 진실한 활성화(Truthful activations)와 거짓 활성화(False activations)의 평균값 계산
- 두 평균을 잇는 벡터 방향으로 이동
- 딥러닝에서 자주 사용되는 화이트닝 및 컬러링 변환(whitening & coloring transformation, Ioffe & Szegedy, 2015; Huang & Belongie, 2017)과 관련
대조 일관 탐색(Contrast-Consistent Search, CCS)
- Burns et al. (2022)의 방법 적용
- 내부 활성화 값만 이용하여 방향을 찾고, 그 방향이 진실 방향인지 거짓 방향인지 모름
- 따라서, 라벨을 이용해 올바른 방향을 식별 후 ITI 적용

결론 및 시사점

ITI는 TruthfulQA에서 기존 방법과 비교하여 강력한 성능을 보이며, 모델의 원래 동작을 최소한으로 변경하면서도 진실성을 향상
SFT, FSP, IFT와 함께 사용할 수 있으며, 추가적인 성능 향상을 기대할 수 있음
ITI 적용 방향(Probe Weight vs. Mean Shift vs. CCS)에 따라 성능 차이가 있음
향후 연구에서는 ITI의 범용성을 더욱 검증하고, 다양한 벤치마크에서의 성능을 평가할 필요가 있음

ITI는 기존의 RLHF보다 계산량이 적고, 데이터 효율성이 높으며, 모델을 재학습하지 않고도 LLM의 진실성을 효과적으로 조정할 수 있는 강력한 방법임을 입증했습니다.

4.3 Experimental Results

우리는 ITI의 개입 강도(strength of intervention)를 조정하기 위해 두 개의 하이퍼파라미터를 스윕(sweep)하는 실험을 수행하였습니다.

훈련(training) 및 검증(validation)에 TruthfulQA 질문의 5%를 무작위 샘플링하여 사용
True × Informative 점수와 개입 강도 간의 관계를 분석한 결과, 뒤집힌 U자(U-shape) 곡선이 나타남 (Figure 4)

너무 약한 개입(작은 α) → 진실성이 충분히 향상되지 않음
너무 강한 개입(큰 α) → 진실성이 증가하지만, 정보성이 감소하여 최종 점수가 하락

이 결과는 **진실성과 유용성(helpfulness) 간의 트레이드오프(trade-off)**를 보여주며, 이에 대한 추가 논의는 섹션 5.4에서 진행됩니다.

최적의 하이퍼파라미터 설정

다양한 지표를 고려하여 최적의 하이퍼파라미터 값을 $K = 48$ , $\alpha = 15$ 로 설정
TruthfulQA의 10% (총 81개 질문)를 사용하여 실험 진행
명시적으로 언급되지 않는 한, 2-fold 교차 검증(cross-validation)을 적용하여 결과를 산출
- 각 실험에서 두 개의 홀드아웃(hold-out) 세트에서 답변을 결합하여 평가
- 방향 찾기(direction finding)에는 테스트 샘플을 사용하지 않음
- 모델 선택 과정에 대한 추가 논의는 Appendix C에서 제공

ITI와 기존 기법 비교 (Table 1)

Table 1에서는 ITI와 기존 베이스라인 방법(subsection 4.2에서 소개된 기법들)을 비교합니다.

**퓨샷 프롬팅(few-shot prompting)**의 문맥 길이(context length) 제한을 고려하여, SFT 및 ITI도 TruthfulQA의 5% 데이터를 사용하여 공정한 비교를 수행
ITI는 기존 방법보다 높은 진실성을 보이면서도, 모델의 원래 분포를 크게 변경하지 않음

ITI를 명령어 미세 조정(IFT) 모델에 적용 (Table 2)

Table 2에서는 ITI를 명령어 미세 조정(instruction fine-tuned)된 모델에 적용한 결과를 분석합니다.

ITI는 기존 IFT 모델보다 진실성을 크게 향상시킴
퓨샷 프롬팅 또는 명령어 미세 조정 위에 추가적으로 적용 가능
CE 손실 및 KL 발산 값이 상대적으로 낮게 증가하는 대신, 진실성이 크게 향상됨
- 즉, ITI는 정보 손실 없이 모델의 신뢰도를 높이는 효과적인 방법

다양한 개입 방향 비교 (Table 3)

Table 3에서는 ITI 적용 시 사용할 수 있는 다양한 개입 방향을 비교하였습니다.

무작위 방향(random direction)을 포함하여 여러 가지 방향을 테스트
각 방향에 대해 최적의 $\alpha$ 값을 Figure 4와 동일한 방식으로 그리드 탐색(grid search)하여 결정
실험 결과, "질량 평균 이동(Mass Mean Shift)" 방법이 가장 우수한 성능을 보임
- 다른 방법보다 개입 강도를 높여도 성능이 안정적으로 유지됨
- 이에 따라, 특별한 언급이 없는 한 모든 후속 실험에서 Mass Mean Shift를 기본 개입 방향으로 사용

결론 및 시사점

ITI의 개입 강도 조정 실험을 통해 최적의 하이퍼파라미터( $K = 48$ , $\alpha = 15$ )를 도출
ITI는 퓨샷 프롬팅, 명령어 미세 조정 등과 함께 적용 가능하며, 상대적으로 낮은 CE 및 KL 증가만으로 진실성을 크게 향상
ITI의 개입 방향 중 "질량 평균 이동(Mass Mean Shift)"이 가장 우수한 성능을 보이며, 개입 강도가 높아도 성능 저하가 적음
ITI는 기존 방법 대비 데이터 효율성이 뛰어나며, 모델의 원래 동작을 최소한으로 변경하면서도 신뢰성을 높일 수 있는 효과적인 기법임

5 Analysis

5.1 TruthfulQA 하위 카테고리별 성능 분석

Figure 5에서는 TruthfulQA의 38개 하위 카테고리 중 10개 이상의 질문이 포함된 카테고리에 대해 ITI 적용 전후의 True × Informative 점수를 비교하였습니다.

ITI는 대부분의 질문 유형에서 진실성을 향상시키는 효과를 보였습니다.
하지만, 어느 특정 카테고리가 전체적인 성능 향상을 주도한다고 볼 수 있는 명확한 패턴은 발견되지 않음
즉, ITI는 특정 유형의 질문에만 편향적으로 효과를 보이는 것이 아니라, 다양한 질문 유형에서 고르게 향상되는 경향을 나타냄

5.2 계산 효율성(Computational Efficiency)

ITI는 모델의 계산량을 거의 증가시키지 않는 매우 효율적인 방법입니다.

**Equation (2)**에 따르면, ITI가 개입하는 어텐션 헤드의 개수와 상관없이, 각 레이어에 추가되는 항목은 단 하나의 상수 벡터(constant vector)
구체적으로, ITI는 다중 헤드 어텐션(MHA)과 MLP 연산 사이에서 아래와 같은 추가 벡터를 삽입하는 방식으로 동작: $\alpha \sum_{h=1}^{H} Q^h_l \sigma^h_l \theta^h_l$
기존 MHA 연산에서의 편향 항(bias term)과 비교했을 때, ITI의 개입은 추가 연산 비용이 거의 없음

ITI를 사전 학습된 LLM에 적용하는 방법

ITI는 모델을 실시간으로 수정하는 것뿐만 아니라, 사전 학습된 언어 모델의 편향 항을 오프라인으로 편집하는 방식으로도 구현 가능합니다.

MLP의 출력 프로젝션(output projection)의 편향 항을 다음과 같이 설정:
이 방식을 사용하면, ITI를 적용한 LLaMA2-7B 모델을 별도로 저장하여 바로 사용할 수 있음
예제 모델: Honest LLaMA2-7B (Hugging Face에서 공개됨)

5.3 ITI의 범용성: TruthfulQA를 넘어선 일반화(Generalization)

ITI가 TruthfulQA 벤치마크에 특화된 기법인지, 아니면 보다 광범위한 진실성을 개선할 수 있는지 검증하는 것이 중요합니다.

이를 위해, TruthfulQA에서 학습된 ITI 활성화 이동 방향과 하이퍼파라미터를 그대로 사용하여 아래 3가지 데이터셋에서 성능을 평가하였습니다.

Natural Questions (NQ, Kwiatkowski et al., 2019)
- Google 검색 엔진에서 실제로 입력된 3,610개의 질문을 포함
- 각 질문에는 위키피디아(Wikipedia) 기반의 정답 및 근거 문서가 제공됨
TriviaQA (Joshi et al., 2017)
- 95,000개의 질문-답변(QA) 쌍
- 퀴즈 애호가(trivia enthusiasts)에 의해 수집됨
MMLU (Hendrycks et al., 2020)
- STEM, 인문학, 사회과학 등 57개 분야의 종합 벤치마크

실험 설정

Natural Questions 및 TriviaQA:
- 문서 검색 없이(closed-book setting) ITI 적용 모델이 답변을 생성하도록 설정
- 각 질문에는 단 하나의 진실한 답변이 존재
- 추가적으로 GPT-4를 사용하여 "가장 그럴듯하지만 틀린(plausible but false)" 오답을 생성 → ITI가 진실한 답변을 선택하는지 평가
- 평가 방법: ITI 적용 후, 진실한 답변이 가장 높은 확률을 가질 경우 1점
MMLU:
- 표준적인 평가 프로토콜인 Harness(Gao et al., 2021) 사용

결과 분석 (Table 4)

ITI는 세 개의 벤치마크에서 기존 LLaMA-7B 모델보다 더 나은 성능을 보임
그러나, Natural Questions 및 TriviaQA에서는 개선 폭이 크지 않음
- 이는 ITI가 일반적인 정보 검색 문제보다는, 오답과 진실을 구별하는 데 더 특화된 기법임을 시사
반면, MMLU에서는 더 강한 성능 향상을 보임
- MMLU의 질문-답변 구조가 TruthfulQA와 더 유사하기 때문으로 추정
결론적으로, ITI는 TruthfulQA에만 국한되지 않고, 다른 진실성 관련 데이터셋에서도 일정 부분 일반화 가능
특히, 잘못된 정보와 올바른 정보를 구별하는 능력이 중요한 벤치마크에서 더 효과적일 가능성

결론 및 시사점

ITI는 특정 유형의 질문에만 효과적인 것이 아니라, TruthfulQA의 다양한 카테고리에서 진실성을 향상시킴
ITI는 계산 비용이 거의 발생하지 않는 효율적인 기법이며, 모델의 편향 항을 사전 편집하여 적용 가능
TruthfulQA 외에도, Natural Questions, TriviaQA, MMLU와 같은 실제 데이터셋에서 일정 부분 일반화 가능
특히, 정보 검색보다는 "진실과 오답을 구별하는 문제"에서 더 효과적일 가능성이 높음
MMLU에서 더 큰 성능 향상이 나타난 것은, TruthfulQA와의 문제 유형 유사성이 기여한 것으로 보임

향후 연구 방향

ITI가 다양한 데이터셋에서 더 광범위하게 일반화되는지 추가 실험 필요
진실성을 강화하는 다른 방향 탐색(예: 다층적인 개입 방식, 새로운 개입 방향 찾기)
ITI를 사전 학습된 LLM에 직접 적용하는 방식 개선 및 최적화

최종 결론

ITI는 계산 비용이 거의 들지 않으면서도 대형 언어 모델(LLM)의 진실성을 효과적으로 향상시킬 수 있는 강력한 방법입니다.

TruthfulQA에서 전반적인 성능 향상을 보이며, 특정 유형의 질문에만 편향되지 않음
사전 학습된 모델의 편향 항을 수정하여 ITI를 적용할 수 있어, 실시간 개입 없이도 활용 가능
일반화 실험 결과, ITI는 TruthfulQA뿐만 아니라, Natural Questions, TriviaQA, MMLU에서도 일정 수준의 성능 향상을 제공
특히, 오답을 걸러내고 진실한 답변을 선택하는 능력을 평가하는 벤치마크에서 더 효과적

ITI는 모델의 출력을 보다 신뢰할 수 있도록 조정하는 실용적인 방법이며, 향후 연구를 통해 더욱 발전할 가능성이 높습니다.

5.4 훈련 데이터 크기 및 개입 강도의 변화 실험

ITI의 특성을 보다 깊이 이해하기 위해, 훈련 데이터 크기(training set size)와 개입 강도(intervention strength, $\alpha$ )를 변화시키면서 성능을 측정하였습니다.

① 훈련 데이터 크기 증가 실험

타겟 어텐션 헤드(targeted heads) 및 진실 방향(truthful direction)을 찾기 위해 사용되는 질문 수를 점진적으로 증가
축소된 훈련 데이터셋(shrunken training set)과 전체 데이터셋(full dataset)으로 학습된 진실 방향 벡터 간의 코사인 유사도(cosine similarity)를 분석

결과 (Figure 6(A))

모델의 진실성 점수는 비교적 빠르게 평탄화(plateau)됨
즉, 진실한 방향(truthful direction)을 찾는 데 필요한 데이터 샘플 수가 비교적 적음
이는 ITI가 소량의 데이터만으로도 효과적으로 적용 가능하며, 데이터 효율성이 높다는 것을 의미

② 개입 강도( $\alpha$ ) 변화 실험

개입 강도를 점진적으로 증가시키면서 모델의 진실성(truthfulness)이 어떻게 변하는지 분석
정보성을 측정하기 위해, "I have no comment."과 같은 응답을 생성한 질문 수를 기록

결과 (Figure 6(B))

진실성과 유용성(helpfulness) 간의 트레이드오프(trade-off) 존재
개입 강도가 너무 높아지면, 모델이 "I have no comment."과 같은 응답을 많이 생성하여 진실성 점수는 증가하지만 정보성 점수는 감소
이는 진실성 점수를 100%로 만들기는 쉽지만, 정보성이 낮아질 위험이 있음을 시사
결론: 적절한 $\alpha$ 값을 선택하여 최적의 균형을 찾는 것이 중요

5.5 왜 모든 어텐션 헤드에 개입하지 않는가?

ITI는 모든 어텐션 헤드(attention heads)에 개입하는 것이 아니라, 선택된 일부 어텐션 헤드만 수정합니다.

① 대안적 방법 실험

우리는 다른 개입 전략 두 가지를 실험적으로 테스트했습니다.

모든 어텐션 헤드에 개입 ("Without Selection")
- 모든 어텐션 헤드의 출력을 연결(concatenate)하여 단일 프루브(single probe)로 진실성을 분류
- 결과: 단일 어텐션 헤드에서 얻은 최상의 정확도(83.3%)보다 소폭 증가한 84.4%
- 그러나, 개입 강도를 조정할 때 정보성이 크게 감소하는 문제 발생
점별 선택(Point-Wise Selection)
- 프루브 계수(probe coefficients)의 절대값을 기준으로 개입 위치를 선정
- 기존 ITI와 동일한 개입량(K × 어텐션 헤드 차원) 사용
- 결과: 기존 ITI(head-wise selection)보다 성능이 떨어짐

② 실험 결과 (Table 5)

모든 어텐션 헤드에 개입하면 성능이 최적화되지 않음
진실성과 유용성 간의 트레이드오프가 더욱 심화되며, 최적의 $\alpha$ 값에서도 성능이 기존 ITI보다 낮음
즉, 개입을 특정 어텐션 헤드에만 적용하는 것이 성능을 유지하면서 진실성을 향상시키는 데 더 효과적
결론: Head-wise selection이 효과적인 개입 전략이며, 모델 개입을 희소화(sparsify)하는 좋은 휴리스틱(heuristic) 역할을 할 수 있음

결론 및 시사점

진실한 방향(truthful direction)을 찾는 데 필요한 데이터가 많지 않음 → ITI는 데이터 효율적인 방법
개입 강도가 너무 높아지면 "I have no comment."과 같은 비정보성 답변이 증가하여 유용성이 저하됨
모든 어텐션 헤드에 개입하는 방식은 성능을 오히려 저하시킴 → 희소한 개입(sparse intervention)이 효과적
Head-wise selection이 가장 좋은 개입 전략으로 확인됨 → 특정 어텐션 헤드만 개입하는 것이 모델 성능을 유지하면서도 진실성을 높이는 최적의 방법

향후 연구 방향

ITI의 개입 위치 선택 방식을 개선하여 더 정교한 개입 전략 개발
진실성과 정보성 간의 트레이드오프를 줄이는 새로운 기법 탐색
다양한 데이터셋에서 ITI의 일반화 성능 추가 검증

ITI는 데이터 효율적이며, 최소한의 개입으로도 언어 모델의 진실성을 향상시킬 수 있는 강력한 방법임을 다시 한 번 입증했습니다.

6. 결론 및 향후 연구 방향

우리는 언어 모델의 출력 진실성을 향상시키기 위한 일반적인 방법인 ITI를 설명했다. 이 접근법은 지도 학습을 사용하여 사실적인 출력과 관련된 잠재 벡터를 식별한 후, 이러한 벡터를 활용하여 추론 시 활성화를 "진실한" 방향으로 이동시키는 방식이다. TruthfulQA 벤치마크에 적용한 결과, ITI는 기존 방법들보다 상당한 정확도 향상을 달성했다. 또한, 진실성이 처리되는 방식과 위치에 대한 추가적인 통찰을 제공하며, 특정 어텐션 헤드 일부가 중요한 역할을 수행하는 것으로 나타났다.

향후 연구에서 탐색해야 할 여러 방향이 있다. 가장 중요한 것은 ITI가 다른 데이터셋에서도 얼마나 잘 일반화되는지, 특히 실제 채팅 환경에서의 성능을 평가하는 것이다. 또한, 하이퍼파라미터 조정과 관련된 트레이드오프를 이해하는 것도 중요하다. 특히, 진실성과 유용성 간의 긴장 관계를 탐구할 필요가 있다. 또한, 이러한 방향성이 비지도 학습 방법을 통해서도 발견될 가능성이 있다고 본다. 각 헤드의 차원이 상대적으로 작고, 소수의 지도 학습 예제만으로도 방향 유사성이 급격히 증가한다는 점(그림 6에서 확인 가능)을 고려할 때, 이는 유망한 연구 주제가 될 수 있다. 마지막으로, 과학적인 관점에서 "진실"과 같은 복잡한 속성이 표현되는 다차원 기하학적 구조를 더 깊이 이해하는 것도 흥미로운 연구 과제가 될 것이다.

Reference

https://arxiv.org/pdf/2306.03341

NL-249, Inference-Time Intervention: Eliciting Truthful Answers from a Language Model, NeurIPS 2023

◼ Comment

Abstract

1 Introduction

언어 모델의 정확성을 높이는 도전 과제

모델이 "아는 것"과 "말하는 것"의 차이를 좁히는 방법

추론 시간 개입(Inference-Time Intervention, ITI) 소개

ITI와 기존 기법(RLHF, RLAIF) 비교

결론 및 기여

2 Related Work

메커니즘 해석 가능성(Mechanistic Interpretability)과 ITI

3 Inference-Time Intervention for Eliciting Truthful Answers

3.1 Setup

데이터셋

모델 아키텍처

1. 잔여 스트림(Residual Stream)과 토큰 임베딩

2. 다중 헤드 어텐션(MHA)의 수식

ITI의 개입 지점

3.2 Probing for “Truthfulness”

1. 네트워크에서 진실성은 어디에 표현되는가?

2. 프루빙 실험 결과

3. "진실성" 개념의 기하학적 구조 시각화

진실성 방향(truthful direction) 정의

직교 방향(orthogonal direction) 추가

4. 결과 해석 및 시각화

5. 결론 및 시사점

3.3 Inference-Time Intervention

1. ITI의 개입 방식: 단순한 "진실 방향 이동" 이상의 정밀한 조정

① 모든 어텐션 헤드에 개입하지 않음

② 개입할 방향(shift direction) 선택의 정밀성

2. ITI의 수식 및 적용 과정

① ITI 개입 과정

3. ITI의 주요 하이퍼파라미터: KK와 α\alpha

하이퍼파라미터 최적화

4. 결론 및 시사점

4 Experiments

4.1 Evaluation on TruthfulQA

TruthfulQA의 주요 평가 지표: True × Informative 점수

ITI 개입 강도 조정 및 모델 변화 측정

4.2 Experimental Baseline Comparisons

(1) 지도학습 미세 조정(Supervised Fine-Tuning, SFT)

(2) 퓨샷 프롬팅(Few-Shot Prompting, FSP)

(3) 명령어 미세 조정(Instruction Fine-Tuning, IFT)

(4) ITI 활성화 이동 방향 비교

결론 및 시사점

4.3 Experimental Results

최적의 하이퍼파라미터 설정

ITI와 기존 기법 비교 (Table 1)

ITI를 명령어 미세 조정(IFT) 모델에 적용 (Table 2)

다양한 개입 방향 비교 (Table 3)

결론 및 시사점

5 Analysis

5.1 TruthfulQA 하위 카테고리별 성능 분석

5.2 계산 효율성(Computational Efficiency)

ITI를 사전 학습된 LLM에 적용하는 방법

5.3 ITI의 범용성: TruthfulQA를 넘어선 일반화(Generalization)

실험 설정

결과 분석 (Table 4)

결론 및 시사점

향후 연구 방향

최종 결론

5.4 훈련 데이터 크기 및 개입 강도의 변화 실험

① 훈련 데이터 크기 증가 실험

결과 (Figure 6(A))

② 개입 강도( α\alpha ) 변화 실험

결과 (Figure 6(B))

5.5 왜 모든 어텐션 헤드에 개입하지 않는가?

① 대안적 방법 실험

② 실험 결과 (Table 5)

결론 및 시사점

향후 연구 방향

6. 결론 및 향후 연구 방향

댓글

댓글 쓰기

3. ITI의 주요 하이퍼파라미터: $K$ 와 $\alpha$

② 개입 강도( $\alpha$ ) 변화 실험