◼ Comment

갠적으론 이 논문이 맘에 드는 논문은 아니다

뭔가 실제로 이렇게 워킹하지 않을거 같은 느낌?

여기서는 환각을 줄이기 위해 순차적 학습 방식을 제안하는데

먼저 학습 세팅은 MRC 느낌이다.
컨텍스트가 있고, 질문이 있는 상황
1) UT: 먼저 모델이 컨텍스트 상으로 응답가능한 질문과 아닌 질문의 데이터를 만든다

응답가능하면 응답=충분함, 불가능하면 응답=불충분함 이 생성되도록 모델을 학습한다

2) ST: UT만 수행했을 경우 발생하는 문제점은 모델이 지나치게 불확실성을 민감하게 받아들여 실제 QA 성능이 저하되는 것입니다.

또한, 일반적인 QA 데이터셋에 다시 학습시키면 UT에서 배운 불확실성을 인지하고 거부하는 능력이 악화될 수 있습니다
따라서 아래처럼 2가지 지시사항의 데이터를 만들어서 학습을 추가적으로 한다
인과적 지시사항(causal instructions): 응답의 형태나 시제 등 내용 자체에 직접 영향을 주는 지시사항. 예를 들어,

"반드시 과거형으로 답하시오."
"답변을 20자 이내로 짧게 하시오."

비인과적 지시사항(non-causal instructions): 답변의 의미는 바꾸지 않지만 응답 여부 등을 결정하는 지시사항. 예를 들어,

"맥락이 부족하면 'Not Provided'로 답하시오."

이러면 결과적으로 컨텍스트상에서 대답할 질문과 못할 질문을 구분해서 대답한다는것

대답못할때는 Not Provided 이 응답하게 됨

이 논문의 한계로는, MRC 세팅의 UT 데이터를 만들어야 한다는 것이다

그래서 만약 컨텍스트가 부족해도 모델의 내재적 지식으로 대답할 수 있는 것인데, Not provided가 나와야하게끔 학습을 한다는 것이다.
RAG 식으로 모델이 꼭 작동해야하는 상황에서는 도움이 되겠지만, 뭔가 꼭 그래야하나? 싶은 의문이 있기는 함

Abstract

대형 언어 모델(LLM)은 뛰어난 성능을 보이지만, 부족한 지식이나 맥락으로 인해 발생하는 환각(hallucination) 문제에 직면해 있다. LLM에게 지식의 한계를 인정하고 "모르겠다(I don't know)"라는 답변을 하도록 지시하는 접근법이 유망해 보이지만, 실제로 모델들은 자신의 지식의 한계를 잘 인정하지 못하는 경향이 있음을 발견하였다.

이는 현재의 지시 데이터셋(instruction datasets)이 모델이 지식의 경계를 인식하는 능력보다는 답변 생성에 집중하도록 설계되어 있기 때문일 수 있다.

이 한계를 해결하기 위해, 우리는 맥락 기반 질의응답(QA)을 위한 새로운 두 단계 접근법인 '불확실성 및 민감성 인식 튜닝(Uncertainty-and-Sensitivity-Aware Tuning, US-Tuning)'을 제안한다. 첫 번째 단계에서는 LLM이 자신의 지식 경계를 인지하는 능력을 강화하고, 두 번째 단계에서는 신중하게 설계된 인과적 프롬프트(causal prompts)를 통해 지시 사항 준수를 더욱 촉진시킨다.

우리의 실험 결과, US-Tuning은 맥락 기반 QA에서 잘못된 응답을 현저히 줄일 뿐만 아니라, 일반적인 QA 작업에서 모델이 가지고 있는 파라메트릭(parametric) 지식에 대한 충실성을 향상시켜 환각 현상을 완화한다는 것이 증명되었다. 특히, 우리의 방식으로 미세 조정한 Llama2-7B 모델은 지식이 부족한 질문(out-of-knowledge questions)을 처리하는 능력에서 최대 34.7%의 개선을 달성하였으며, 전체 성능에서 GPT-4를 4.2% 능가하였다.

1. 서론

대형 언어 모델(LLMs)은 자연어 처리의 다양한 작업에서 뛰어난 성능을 입증해 왔다 (Brown et al., 2020; Wei et al., 2022; Joshi et al., 2017). 그러나 이러한 인상적인 성과에도 불구하고 실제 응용 프로그램에서 신뢰할 수 있는 활용에 제한을 두는 심각한 문제점들에 직면해 있다. 이 중 가장 중요한 문제 중 하나는 바로 환각(hallucination) 현상으로, 이는 사실적으로 틀렸거나 무의미한 콘텐츠를 생성하는 경향을 말한다 (Maynez et al., 2020). 이러한 현상은 모델이 입력된 맥락과 모순되거나 사실적으로 근거 없는 주장을 생성할 때 나타난다(Ji et al., 2023; Ye et al., 2023). 이 문제의 근본적인 원인은 모델이 훈련 중에 지식을 습득하고 저장하는 방식 자체의 한계에 있다. 구체적으로, LLM은 훈련 데이터에서 광범위한 지식을 인코딩하지만, 이 지식은 본질적으로 불완전하고 오래될 수밖에 없다. 따라서 자신이 가진 지식을 넘어서는 질문에 직면했을 때, 모델들은 종종 그럴듯하지만 사실적으로는 잘못된 답변을 만들어내곤 한다(Huang et al., 2024a).

이 문제를 해결하기 위해 두 가지 접근법이 등장하였다.

첫 번째는 추가적인 지식을 활용하여 모델을 더 정밀하게 미세조정(fine-tuning)하는 방식이며(Liu et al., 2023b; Gao et al., 2023; Liu et al., 2023a),
두 번째는 외부 데이터베이스를 결합한 검색 기반 생성(Retrieval-Augmented Generation) 기법을 사용하는 방식이다(Es et al., 2023).

그러나 그림 1에서 보듯, 이 접근법들은 여전히 실제 환경의 알 수 없는 질문들에 대해서는 잘못된 답변을 생성하는 경향이 있다. 최근 연구들에 따르면, LLM은 필요한 경우 명시적으로 "모르겠다(I don’t know)"고 응답함으로써 자신의 지식의 한계를 인정할 수 있어야 한다고 제안되고 있다(Cole et al., 2023; Yu et al., 2024a).

그러나 여전히 두 가지 중요한 도전 과제가 존재한다.

첫째, 현재의 지시 데이터셋(instruction datasets)은 주로 명확한 답변을 제공하도록 모델을 훈련시키며, 이로 인해 모델이 자신의 지식 한계를 인지하고 불확실성을 표현하는 것을 의도치 않게 방해하고 있다.

여기서 불확실성이란, 모델이 자신의 훈련 범위를 넘어서는 지식에 대해 가지는 인식 정도를 말한다(Zhang et al., 2024).

둘째, 불확실성을 인지하도록 명시적으로 최적화된 모델들은 일반적으로 제로샷(zero-shot) 질의응답(QA)에서 성능 저하를 보인다(Kasai et al., 2023; Li et al., 2023a; Si et al., 2023).

이러한 도전 과제를 해결하는 데 가장 큰 장애물은 고품질의 "모르는 질문"(unknown questions)을 포함한 데이터셋이 부족하다는 점이다.
따라서 이 연구에서는 제공된 맥락이 의도적으로 불충분한 시나리오를 포함하여 맥락 기반 QA 데이터셋을 구축하는 데 중점을 두고 있다.
파라메트릭(parametric) 지식을 직접 규제하는 것보다는, 이러한 접근법이 모델의 추론 과정(reasoning process)에 더 큰 영향을 미치기 때문이다(Huang et al., 2024b).

이 데이터셋 개발은 제공된 지식과 질문 간의 미묘한 불일치가 환각을 촉진한다는 기존 연구 결과에 영감을 받았다(Shuster et al., 2021). 본 연구는 ASQA 데이터셋(Stelmakh et al., 2022)을 기반으로 하여 맥락 내(known) 질문과 맥락 외(unknown) 질문을 균형 있게 포함한 데이터셋을 구축하였다. 특히 맥락 외 질문에서는 날짜나 대상(object)이 일치하지 않는 등 미세한 불일치를 의도적으로 추가하면서도 전반적인 맥락의 일관성을 유지하였다. 기존 연구들(Li et al., 2022; Chen et al., 2023)과는 달리, 본 연구에서의 이러한 미세한 불일치는 LLM이 환각하는 경향을 효과적으로 드러내므로, 우리의 데이터셋은 모델 성능 평가에 특히 가치가 있다.

LLM이 모르는 것을 정확히 인지하고 불확실한 답변을 거부하는 능력을 향상시키기 위해, 본 논문은 새로운 훈련 프레임워크인 "불확실성 및 민감성 인식 튜닝(Uncertainty-and-Sensitivity-Aware Tuning, US-Tuning)"을 제안한다.

이 방법은 불확실성 인지와 제로샷 지시 준수(instruction adherence)의 균형을 맞추기 위한 두 단계 훈련 과정으로 구성되어 있다.

첫 번째 단계에서는 LLM이 자신이 알고 있는 지식의 한계를 효과적으로 인지하도록 불확실성 인식을 강조한다.
두 번째 단계에서는 지시사항에 대한 민감성을 강조하여 모델이 모르는 질문에 대한 응답을 거부하도록 학습시키며, 추가적인 미세 조정을 통해 저하된 QA 성능을 복구하도록 한다.

우리의 접근 방식은 질의응답 작업에서 불확실성을 인식하는 언어 모델을 개발하는 과정에서 마주하는 몇 가지 근본적인 도전 과제들을 다룬다. 주요 도전 과제는 지식 경계 인식과 일반 QA 성능 사이의 섬세한 균형 유지에 있으며, 불확실성에 과민한 모델들은 일반적인 질문에 답하는 능력이 상당히 저하되는 경향이 있다. 또한, 기존의 QA 데이터셋에 미세 조정할 때는 지원 증거(supporting evidence)를 포함한 질문만 존재하기 때문에, 모델이 알 수 없는 질문을 효과적으로 거부하는 능력을 잃어버리기 쉽다. 우리는 이러한 성능 저하가 모델의 불확실한 지시에 대한 낮은 민감성 때문이라 판단하고, 신중하게 설계된 인과적 지시(causal instructions)를 통해 이를 해결한다.

실험 결과, US-Tuning은 널리 사용되는 LLM들이 모르는 것을 정확히 인지하는 능력을 현저히 향상시킨다는 것을 입증하였다. 특히, 지식이 없는 질문 처리에서 최대 34.7%의 성능 향상을 보였으며, GPT-4(OpenAI, 2023)를 전체 성능에서 최대 4.2% 능가하였다. 또한 맥락 기반 QA에서 잘못된 응답을 줄이는 것뿐 아니라, 파라메트릭 지식에 대한 모델의 충실성을 높여 다양한 평가 기준에서 환각 현상을 완화하였다. 본 논문의 핵심 기여점은 다음과 같다:

지식 공백에 대한 모델의 인식을 평가할 수 있도록 불확실성 인지 데이터셋과 벤치마크를 구축하였다.
LLM이 불확실성에 민감하지 못하여 필수적인 지시를 따르지 못하는 이유를 분석하였다.
모델이 맥락에 충실하고 모르는 질문을 거부하도록 지시하는 새로운 두 단계 미세 조정 방식을 제안하였으며, 충실성과 환각 현상 간의 관계를 탐구하였다.

2 관련 연구

이 섹션에서는 환각(hallucination)과 훈련을 위한 지시 데이터셋(instruction datasets)에 대한 기존 연구를 분석한다.

2.1 환각 현상과 불확실성 (Uncertainty in Hallucinations)

대형 언어 모델(LLMs)은 일반화 및 파라미터 내에 인코딩된 지식을 활용하여 다양한 다운스트림 작업에서 우수한 성능을 보였으나(Liu and Demberg, 2023; Zhang et al., 2023), 이러한 지식의 불확실성이 모델을 잘못된 출력을 생성하도록 유도할 수도 있다(Yu et al., 2023; Ye et al., 2023; Manakul et al., 2023). 일반적으로 이러한 불확실성은 훈련 데이터와 과신(overestimation)에서 비롯된다(Zhang et al., 2024).

기존 연구에 따르면, 모델은 훈련 세트에 존재하는 출력을 모방하는 경향이 있어(Kang and Hashimoto, 2020), 불충분한 질문-맥락 쌍에 대해 그럴듯하지만 잘못된 답변을 생성하여 환각을 유발하게 된다.

더불어, 모델은 자신의 능력에 대해 지나친 자신감을 가져, 모르는 질문(unknown questions)을 제대로 식별하지 못하는 경우가 많다(Yin et al., 2023; Ren et al., 2023; Kadavath et al., 2022).

환각을 완화하기 위해 불확실성을 측정하는 연구들도 있다. Lu et al.(2023)는 불확실성과 정확도 사이에 상관관계가 있음을 밝혔다. CAD(Shi et al., 2023)는 생성된 지식의 불확실성을 측정하기 위한 대조적 방법을 제안하여, 맥락이 제공될 때 출력 확률을 증가시켜 모델이 맥락에 집중하도록 한다. SelfCheckGPT(Manakul et al., 2023)는 샘플링을 이용하여 불확실한 정보를 탐지하고 제거하는 방법을 활용한다.

2.2 외부 지식에 대한 충실성 (Faithfulness to the External Knowledge)

환각은 맥락(context)과 파라메트릭 지식(parametric knowledge) 모두에 대해 제공된 원본 콘텐츠에 비논리적이거나 충실하지 않은 출력을 의미한다(Ji et al., 2023; Filippova, 2020).

기존 연구 대부분은 모델의 파라메트릭 지식에 대한 충실성에 중점을 두었지만, 맥락에 대한 충실성은 환각의 중요한 형태로 상대적으로 덜 주목받았다.

이는 최신 및 관련 지식을 프롬프트에 포함하면 사실과 충돌하는 환각을 효과적으로 완화할 수 있다는 연구 결과에 의해 강조된다(Zhou et al., 2023; Liu et al., 2022). 그러나 이 연구들은(Vu et al., 2023; Lewis et al., 2020) 주어진 맥락이 정확한 답변 생성에 항상 충분하다고 가정한다는 한계를 가진다.

이러한 한계를 해결하기 위해, 다양한 접근법이 생성 후 탐지(post-generation detection, Shen et al., 2023) 또는 편집(editing, Chen et al., 2023)을 통해 생성된 응답이 제공된 맥락과 충실하고 일관성이 유지되도록 보장한다. Self-RAG(Asai et al., 2023)는 LLM을 사용하여 제공된 맥락을 검토하고 관련 없는 정보의 방해를 방지한다. 그러나 모델은 특히 질의와 맥락 간의 도메인이 유사한 경우, 제공된 지식이 충분한지 정확히 판단하는 데 어려움을 겪는다. 또한 일부 연구는 '알 수 없는' 외부 지식에 의존하면 성능이 상당히 저하되고 환각이 악화될 수 있다고 제안한다(Lee et al., 2024). 따라서 '모르는 것'을 인지할 수 있는 LLM의 필요성이 시급하다.

2.3 훈련을 위한 지시 데이터셋 (Instruction Dataset for Training)

LLM의 정렬(alignment)을 위해서는 상당한 훈련 데이터가 필요하며, 이는 성능 향상을 위한 지시 데이터의 합성으로 이어지고 있다. Self-Instruct(Wang et al., 2023)는 ChatGPT를 이용하여 다양한 지시문을 생성하는 방법을 제안하였다. WizardLM(Xu et al., 2023)은 질문의 복잡성을 높이기 위해 깊이 검색(depth search), with search 등을 포함한 다섯 가지 프롬프트를 사용한다. 반면, AttrPrompt(Yu et al., 2024b)는 클래스 조건 프롬프트(class-conditional prompts)에 의존하지 않고 특징 관점에서 다양한 지시문을 생성한다. 기존 방법의 대부분은 불확실한 답변을 처리하기보다는 명확한 답변이 존재하는 다양한 질문을 탐색함으로써 답변의 질을 개선하는 데 초점을 맞추었다.

최근 연구(Zhang et al., 2024; Cole et al., 2023)는 LLM이 모르는 질문을 거부하도록 유도했다. 예를 들어, R-Tuning(Zhang et al., 2024)은 모델이 자신의 지식의 한계를 인식하고 "모르겠다(I don’t know)"라고 응답하도록 훈련한다. 그러나 파라메트릭 지식의 경계를 식별하는 것은 잠재 공간의 압축(latent space compression) 및 환각과 같은 요소들로 인해 여전히 어렵다. 따라서 본 연구에서는 맥락 기반 질의응답(QA)을 바탕으로 데이터셋을 구축하고, 모르는 질문을 거부하면서도 다른 작업에서 성능을 유지할 수 있도록 하는 두 단계의 훈련 방법을 제안한다.

3 불확실성 및 민감성 인식 튜닝 (Uncertainty-and-Sensitivity-Aware Tuning)

본 연구는 개방형 맥락 기반 질의응답(QA)에 초점을 맞추고 있다. 이 작업은 세 가지 입력값, 즉 작업 지시사항(task instructions, ( $i_t$ )), 질문(( q )), 맥락(( c ))을 기반으로 답변 ( a )를 생성하는 것을 목표로 한다. 이 생성 과정 ( G )는 다음과 같이 공식화할 수 있다:

모델이 불확실성을 분석하도록 유도하기 위해 우리는 두 가지 명시적 제약을 설정한다.

첫째, 작업 지시사항 ( $i_{task}$ )에서 모델에게 제공된 맥락 외의 추가적인 지식을 사용하지 말 것을 지시한다:

"답변은 반드시 제공된 맥락에서 언급되지 않은 추가 지식을 사용해서는 안 됩니다."

둘째, 모델이 불확실한 답변을 거부하도록 다음과 같이 지시한다:

"만약 질문에 답하기에 맥락이 충분하지 않다면, '제공되지 않음(Not Provided)'이라고 응답해 주세요."

이 과정에서 모델 ( G )는 맥락 ( c )가 질문 ( q )에 답하기에 충분한지 평가한다. 이 평가를 기반으로, ( G )는 적절한 답변(( a ))을 생성하거나 또는 맥락 ( c )의 불충분성을 인정하게 된다.

베이스라인 느낌으로 한번 LLM이 (맥락,질문)에 답변할 수 있는 응답인지 아닌 판별할 수 있는지 프롬프트를 위처럼 줘서 한번 시도해본듯

3.1 동기부여 (Motivation)

표 1에 나타난 우리의 벤치마크는 기존의 대형 언어 모델(LLMs)이 지식 경계를 넘어서는 질문을 거부하는 데 제한적인 효율성을 보임을 나타낸다.

체계적인 실험을 통해 우리는 이러한 제한의 두 가지 핵심적인 도전 과제를 규명하였다.

첫째, 모델은 사용자의 기대에 부합하려고 추측성 답변을 자주 생성하며, 이는 명확한 답변을 우선시하는 일반적인 QA 훈련 방식 때문에 발생한다.

둘째, 불확실성 인식을 위해 미세 조정된 모델은 제로샷(zero-shot) 지시사항 준수 능력이 약화되어, 모르는 질문을 거부하는 능력과 일반화 가능한 지시 준수 능력 사이의 상충(trade-off)을 초래한다.

이 상충은 특히 헷갈리는 희소한 질문-맥락 쌍(unknown question-context pairs)이 부족하기 때문에 발생한다.

본 연구에서는 희소하지만 중요한 이러한 샘플들의 완전성을 보존하기 위해, 모르는 질문에 직접 미세조정하는 것을 피하고, 두 단계로 구성된 훈련 프레임워크를 통해 이 문제를 해결한다.

첫 번째 단계는 모델이 불확실한 질문을 식별하고 거부하도록 훈련하여 부정확한 답변을 방지한다.
두 번째 단계는 체계적인 지시사항 검토와 답변 개선 과정을 통해 일반적인 QA 튜닝 방식과 달리 지시사항 준수(instruction adherence)를 강조한다.

IDK을 발현하려고 하는 목적은 가지고 있는거 같음

3.2 1단계: 불확실성 인식 튜닝 (Uncertainty-Aware Tuning, UT)

첫 번째 단계는 모델이 자신의 지식 경계를 정확하게 인지하고 알려진 질문을 식별할 수 있도록 미세 조정(fine-tuning)한다. 벤치마크의 정답(ground truth)을 보호하기 위해 이 작업을 그림 2에 제시된 바와 같이 이진 분류(binary classification) 문제로 공식화하였다.

질문은 "알려진(known) 질문"과 "알 수 없는(unknown) 질문" 두 가지 그룹으로 분류된다.

알려진 질문은 정확한 답을 얻기에 충분한 맥락적 지원(contextual support)을 갖춘 질의를 의미한다. 반면 알 수 없는 질문은 맥락 정보가 불충분하며, 주로 질문과 맥락 간 미묘한 차이가 있는 경우를 말한다.
모델은 맥락의 충분성을 평가하고, 답변을 생성하는 데 필요한 자신감을 "충분함(Sufficient)" 또는 "불충분함(Insufficient)"의 형태로 분류하는 법을 배우게 된다.

보다 공식적으로 표현하면, 맥락 기반 QA 데이터셋 ( D = {(q_i, c_i), (q_i, c'i)}{i=1}^{n} )이 주어졌을 때 (이 데이터셋은 ( n )개의 알려진 질문-맥락 쌍과 ( n )개의 알 수 없는 질문-맥락 쌍으로 구성됨),

우리는 LLM을 이진 분류 수행 목적으로 미세 조정한다.
이 과정에서 응답은 "충분함(Sufficient)"과 "불충분함(Insufficient)"의 두 가지 카테고리로 제한된다.
구체적인 미세 조정을 위한 지시사항(instruction)은 부록(Appx. B.2)에 기록되어 있다.

여기서는 MRC 와 유사한 세팅이라 보면됨.

데이터에서 컨텍스트,질문이 입력이고 출력은 충분함/불충분함 둘 중에 하나이다.

컨텍스트에 대해 질문이 답할 수 있으면 충분함이 나와야하고, 아니면 불충분함이 나오도록 모델을 학습하는 거싱다.

이러한 데이터는 ASQA 데이터셋을 기반으로 하여, 충분함/불충분함 데이터세트를 증강한거라고 하는데, 이는 섹션 4.1에서 더 자세히

3.3 2단계: 민감성 인식 튜닝 (Sensitivity-Aware Tuning, ST)

불확실성 인식 튜닝(UT)은 모델이 지식 경계를 설정하고 답할 수 없는 질문을 거부하는 능력을 갖추게 하지만, 표 1에서 보듯이 두 가지 중요한 문제가 남아 있다.

첫째, UT로 훈련된 모델은 불확실성에 대한 민감성이 너무 높아져서 알려진(known) 질문에 자신 있게 답변하는 능력에 영향을 준다.
둘째, 기존의 QA 튜닝 방식으로 추가 미세 조정을 할 경우, 알 수 없는(unknown) 질문을 거부하는 모델의 능력이 악화되는데, 이는 UT가 불확실한 지시사항에 대한 민감성을 떨어뜨리기 때문이다.

우리는 이러한 현상의 원인이 목표(objective) 정렬의 갈등에서 비롯된다고 가정한다.

즉, 알 수 없는 질문을 거부하는 지시사항(오직 분포 바깥의 질문에만 해당)은 실제 훈련 데이터에서 제대로 적용되지 않는다.
결과적으로 평가 시 이러한 지시사항을 적용하면 불확실성 인식과 지시사항 준수 간의 미스얼라인먼트(misalignment)가 발생하여 전체 성능이 저하된다.

이러한 문제를 해결하기 위해, 우리는 지시사항을 명시적으로 인과적(causal) 및 비인과적(non-causal) 두 가지로 구분하여 ST를 설계하였다:

인과적(causal) 지시사항은 응답의 내용을 직접적으로 결정하는 반면, 비인과적(non-causal) 지시사항은 답변의 의미적 내용에 영향을 주지 않고 부가적인 안내만 제공한다. 예를 들어 응답의 형식이나 시제를 제한하는 지시사항은 전형적인 인과적 지시사항이다. 반면, "맥락이 불충분할 경우 '제공되지 않음(Not Provided)'이라고 답하라" 같은 추가적인 지시는 알려진 질문을 미세 조정할 때 비인과적 지시사항으로 기능하며, 응답에 직접적으로 기여하지 않는다.
비인과적 지시사항은 작업 전체에서 매우 중요하지만, 모델이 이를 무시할 위험이 존재한다.

UT때 학습된 모델은 응답이 확실함/불확실함 식으로 답변하도록 학습이 됐음

ST에서 이어서 학습할때는 아래의 2가지 케이스로 나눠서 데이터 학습함

인과적 지시사항(causal instructions): 응답의 형태나 시제 등 내용 자체에 직접 영향을 주는 지시사항. 예를 들어,

"반드시 과거형으로 답하시오."
"답변을 20자 이내로 짧게 하시오."

비인과적 지시사항(non-causal instructions): 답변의 의미는 바꾸지 않지만 응답 여부 등을 결정하는 지시사항. 예를 들어,

"맥락이 부족하면 'Not Provided'로 답하시오."

ST(Sensitivity-Aware Tuning) 단계에서 사용하는 학습 데이터는 UT(Uncertainty-Aware Tuning) 단계에서 사용한 데이터와는 다릅니다.

각 단계의 데이터 구성

UT 단계 데이터:
- 주로 ASQA 데이터셋 기반으로 만들어진 데이터로 구성됩니다.
- 질문에 대해 맥락이 충분한지(Sufficient) 또는 불충분한지(Insufficient) 판단하도록 이진 분류 형태로 구성됩니다.
- 예를 들어, 주어진 맥락으로 질문에 답을 할 수 있는지 명확히 판단하는 과제를 수행합니다.
ST 단계 데이터:
- HotpotQA와 같은 다른 QA 데이터셋에서 유래된 데이터를 기반으로 합니다.
- 여기에 GPT-4를 활용하여 생성한 다양한 **인과적 지시사항(causal instructions)**을 추가로 결합합니다.
- 예를 들어, "반드시 과거형으로 답하시오" 또는 "답변은 20자 이내로 짧게 하시오"와 같은 지시사항을 포함시켜, 모델이 다양한 형식의 지시에 민감하게 반응하도록 학습시킵니다.

즉, 두 단계의 데이터는 서로 다른 데이터셋을 사용하며, UT는 불확실성을 판단하는 능력에 집중하고, ST는 다양한 지시사항을 준수하는 민감성을 높이는 데 초점을 둡니다.

우리가 제안하는 ST는 비인과적 지시사항을 포함한 모든 지시사항에 대한 모델의 민감성과 준수 능력을 강화하도록 설계되었다. 그림 2에서 보듯이 ST는 **추가적인 인과적 지시사항 합성(causal instruction synthesis)**과 지시사항 리뷰 합성(instruction review synthesis) 두 가지 상호 보완적인 요소로 구성된다.

인과적 지시사항 합성: 우리는 GPT-4에 시제, 길이, 출력 형식 등 응답의 속성을 직접 제어하는 조건을 생성하도록 지시하여 추가적인 인과적 지시사항을 얻는다. 이렇게 생성된 인과적 지시사항은 원본 QA 프롬프트에 무작위로 통합되어, 모델이 다양한 작업 요구사항을 우선시하고 이를 따르는 방법을 배우게 한다. 생성 프롬프트는 부록(Appx. B.3)에 제시되어 있다.
지시사항 리뷰 합성: 지시사항 리뷰 모듈은 모델 자체가 모든 지시사항의 준수 여부를 검증하도록 한다. 부록(Appx. B.4)에 제시된 프롬프트를 활용하여, 모델이 완벽한 응답을 생성할 때까지 재귀적으로 응답을 재생성한다. 이 지시사항 리뷰 프로세스는 알고리즘 1(Algo. 1)에서 설명되어 있다.

그림 2에서 제시된 바와 같이, 질의응답 데이터셋 (${(q_1,c_1),\dots,(q_n,c_n)}$)과 추가적인 인과적 지시사항이 주어졌을 때, 전체 프로세스는 다음과 같이 공식화된다:

$[
a = R(G(i_t + i_c, q, c))
]$

여기서 (i_c)는 무작위로 선택된 인과적 지시사항이며, ($i_t$)는 원본 작업 설명이다. 또한 (R)은 지시사항 리뷰를 위한 반복(loop) 함수이다. 우리는 GPT-4를 활용하여 루프(loop)에서의 대화를 기록하고, 이 기록을 이용하여 더 작은 모델을 미세 조정한다.

4 실험 (Experiments)

본 섹션에서는 데이터 생성 방법과 이에 따른 실험을 설명한다. 표 1은 기존의 LLM이 알 수 없는 질문(unknown questions)을 거부하는 성능이 부족한 이유로 두 가지 주요 원인을 제시한다: 약한 불확실성 인지 능력과 지시사항 민감도 감소이다. 우리는 제안한 US-Tuning 기법의 유효성을, 제시한 벤치마크와 기존의 QA 환각(hallucination) 벤치마크에서 여러 인기 있는 LLM을 이용해 평가한다.

4.1 데이터 구축 (Data Construction)

모델 평가를 위해 알려진 질문(known questions)과 알 수 없는 질문(unknown questions)을 균형 있게 구성한 벤치마크를 제작하고, 이를 US-Tuning을 위한 두 가지 특정 데이터셋으로 나누어 설계하였다.

불확실성 인식 벤치마크 (Uncertainty-Recognition Benchmark)

모델이 지식의 경계를 인지하는 능력을 종합적으로 평가하기 위해, 모호한 질문으로 구성된 ASQA(Stelmakh 등, 2022)를 활용하여 테스트 데이터를 구성했다. 각 질문은 여러 하위 질문으로 나뉘고, 각각의 맥락(context)이 주어진다. 예를 들어, 부록(Appx. A.11)에 기록된 것처럼 한 쌍(pair)은 1887년 광전 효과의 발견을 논의하고, 다른 쌍은 1905년의 이론적 발전을 다룬다. 알 수 없는 질문을 만들기 위해, 이러한 질문-맥락 쌍을 섞어(shuffle) 원래의 맥락이 아닌 관련성 있는 다른 맥락과 연결하였다. 이를 통해 벤치마크에서 두 가지 주요 진전을 이뤘다:

첫째, 질문과 밀접하게 연관되지만 날짜나 대상 등이 부분적으로 불일치하는 맥락을 제공하여 모델이 불확실성을 처리하는 능력을 시험한다.
둘째, 제공된 맥락은 질문에 확실히 불충분하게 구성된다. 이러한 샘플은 매우 드물고 가치가 높으며, ASQA가 이러한 조건을 만족하는 충분한 샘플을 생성할 수 있는 유일한 데이터셋이다. 총 3,320개의 알려진 질문과 3,320개의 알 수 없는 질문을 생성하여 벤치마크를 구축했다.

평가 시에는 모델이 알 수 없는 질문을 거부하도록 지시하는 QA 템플릿을 설계하였다:

QA 불확실성 인식 평가: "만약 맥락이 질문에 답하기에 충분하지 않다면, 'Not Provided'라고 답하시오."

US-Tuning 데이터셋 (US-Tuning Datasets)

두 단계의 학습을 위해 두 가지 구별되는 지시 데이터셋을 별도로 사용하였다.

UT 단계 데이터셋
ASQA(Stelmakh 등, 2022)의 646개 샘플을 사용하여 바이너리 데이터셋을 만들었고, 평가 데이터와의 중복을 방지하기 위해 정답(ground truth)은 숨겼다. 아래는 이 데이터셋의 학습용 프롬프트 예시이다:
- "Uncertainty-Aware Tuning: 반드시 'Sufficient(충분함)' 또는 'Insufficient(불충분함)' 둘 중 하나로만 답하고, 그 외 다른 답변은 하지 마시오."
ST 단계 데이터셋
ST 데이터셋은 HotpotQA(Yang 등, 2018)를 기반으로 구축되었다. GPT-4(OpenAI, 2023)를 사용하여 28개의 가장 효과적인 인과적 지시사항(causal instructions)을 생성했고, 부록(Appx. C)에 기록되어 있다. 이후 HotpotQA에서 임의로 선택된 300개의 샘플에 이 지시사항을 통합하였다. 마지막으로 GPT-4를 이용해 섹션 3.3에 설명된 방식을 따라 최종 ST 데이터셋을 합성하였다.

4.2 실험 환경 (Experiment Setting)

학습 세부사항 (Training Details)

우리는 제안한 US-Tuning 방법을 여러 인기 있는 공개 LLM에서 평가했다. 여기에는 Llama2-7B-Chat (Touvron 등, 2023), Mistral-7B-Instruct-v0.2 (Jiang 등, 2023), Gemma-2-9B-Instruct (Team 등, 2024)가 포함된다. 또한 GPT-4o (OpenAI, 2024), GPT-4-1106-preview (OpenAI, 2023), GPT-3.5 Turbo (OpenAI, 2023), Vicuna-7B v1.5 (Zheng 등, 2024a), Self-RAG-7B (Asai 등, 2023)를 벤치마크에서 테스트하였다. 더 나아가 최신 Llama3-it (Grattafiori 등, 2024), Gemma3-it (Team 등, 2025)를 기반으로 다양한 모델 크기에서도 실험을 수행했다.

파인튜닝(fine-tuning)은 RTX3090 GPU와 LLaMA-Factory (Zheng 등, 2024b)를 사용했으며, Lora (Hu 등, 2021) 방식을 rank=8, 배치 사이즈(batch size)=4, 학습률(learning rate)=5e-5로 설정하여 진행했다. UT 단계는 1 epoch, ST 단계는 5 epoch로 설정하였다. 본 연구에서는 명령 기반(instruction-based) 및 특성 기반(attributed) 프롬프트 방식을 함께 활용하였는데, 이는 환각(hallucination)을 효과적으로 완화하는 것으로 알려져 있다(Zhou 등, 2023). 이와 관련된 추가적인 내용은 부록(Appx. B)에 기록되어 있다.

평가 지표 (Evaluation Metric)

평가 지표로는 명확한 답이 있는 질문에 대한 정확도를 나타내는 ($Acc_{known}$)과, 알 수 없는 질문에 대한 정확도를 나타내는 ($Acc_{unknown}$)을 사용했다.

벤치마크 결과 (Benchmark Result)

표 1에 요약된 결과와 부록(Appx. A.3)의 분석 결과에 따르면, 현재 널리 사용되는 LLM들은 알 수 없는 질문을 안정적으로 인식하는 데 어려움을 겪으며, 약 60%의 낮은 정확도를 보이는 것으로 나타났다.

4.3 분석 (Analysis)

이 섹션은 US-Tuning의 효과를 분석하고, 두 가지 주요 문제점을 다룹니다.

4.3.1 약한 불확실성 인지 능력 (Weak Uncertainty-Recognition Capacity)

기존 모델(Llama2)은 **알려진 질문(known)**과 알 수 없는 질문(unknown) 간 최대 **21.0%**의 정확도 차이를 보임.
UT를 적용하면, 알 수 없는 질문(unknown)에 대한 정확도가 최대 26.1% 증가하여 GPT-4 수준에 가까워지지만, 질문의 미묘한 표현 차이에 지나치게 민감해져 일반적인 QA 성능이 다소 저하되는 문제 발생.

4.3.2 지시사항 민감도 감소 문제 (Instruction-Sensitivity Reduction Problem)

HotpotQA로 추가 학습하면 모델의 알 수 없는 질문 거부 능력이 현저히 감소함 (Acc_unknown이 66.7%에서 20.9%로 하락). 이는 모델이 "맥락이 불충분하면 거부하라"는 지시사항을 무시하고 잘못된 답변을 내놓기 때문.
US-Tuning(ST)을 적용하여 지시사항에 대한 민감도를 강화하면, 지시사항 준수 능력이 향상되어 이 문제를 해결할 수 있음.

4.4 Contextual QA에서의 효과 (Effectiveness on Contextual QA)

제안된 방법(US-Tuned Llama2)이 자체 구축한 벤치마크에서 85.8%의 F1 스코어로 GPT-4 대비 4.2% 높게 나타남.
특히 알 수 없는 질문에 대한 정확도(Acc_unknown)는 무려 93.0%로 가장 높음.
결과적으로 불확실성을 잘 인지하면서도 기존 QA 성능을 거의 저하시키지 않고 유지하는 데 성공함.

4.5 최신 기법들과의 비교 (Comparison with SOTA Approaches)

Honesty(Yang 등, 2024), Calibration(Kapoor 등, 2024) 등 기존의 최신기법(SOTA)과 비교했을 때, US-Tuning이 contextual QA 기반의 불확실성 인지 벤치마크에서 월등한 성능을 보임.
특히 US-Tuning은 작은 양의 데이터(총 3,000개 내외)를 사용하면서도, 더 많은 데이터를 사용한 SOTA 접근법보다 알 수 없는 질문 거부 능력에서 매우 높은 성과를 보임.
이는 적은 양이지만 높은 품질의 데이터로도 충분히 우수한 성능을 낼 수 있음을 시사함.

4.6 Ablation Study (제거 실험)

US-Tuning의 효과를 구성 요소별로 분석한 결과,
- UT가 없으면 알 수 없는 질문 인지 능력이 매우 약화됨.
- 인과적 지시사항(causal instructions)을 포함하지 않고 QA 데이터만 추가 학습할 경우 알 수 없는 질문 처리 성능이 오히려 저하됨.
- 최적 성능은 UT + 인과적 지시사항(CI) 조합인 US-Tuning을 완전하게 적용했을 때 나타남.

4.7 맥락 신뢰성과 환각 사이의 관계 (Relationship between Faithfulness and Hallucination)

US-Tuning을 기존의 맥락이 없는(noncontextual) QA 환경에서도 테스트했으며, ParaRel, MMLU, HaluEval과 같은 기존 QA 벤치마크에서도 성능을 평가함.
결과적으로, 비록 noncontextual QA를 위해 특별히 설계된 SOTA 기법보다는 성능이 낮았지만, Vanilla 모델보다는 성능이 크게 향상됨(ParaRel에서 11.3%, MMLU에서 10.38%, HaluEval에서 6.26% 증가).
이는 불확실성 인지 능력이 맥락이 있는 상황뿐 아니라 없는 상황에서도 유효한 메타 인지(metacognitive) 능력으로 사용될 수 있음을 의미함.

5 결론 (Conclusion)

본 논문은 대형 언어 모델(LLM)이 맥락 정보가 불충분할 때 그럴듯하지만 부정확한 응답을 생성하는 널리 알려진 문제를 다루었다. 우리는 LLM이 알 수 없는 질문에 어려움을 겪는 주된 원인이 낮은 불확실성 인식 능력과 제로샷(zero-shot) 지시사항에 대한 약한 견고성 때문이라는 점을 밝혔다. 특히 불확실성을 인지하도록 모델을 튜닝할 경우, 오히려 제로샷 지시사항 준수 능력이 저하되는 문제를 발견했다.

이러한 문제들을 해결하기 위해 본 논문에서는 US-Tuning (불확실성 및 민감성 인식 튜닝) 이라는 새로운 2단계 학습 프레임워크를 제안하였다.

**첫 번째 단계(UT)**에서는 LLM이 알 수 없는 질문을 명확히 인지하고 판단하는 능력을 학습시킨다.
**두 번째 단계(ST)**는 잘 설계된 인과적(causal) 지시사항을 활용하여 저하된 QA 성능을 회복시키고 지시사항 준수 능력을 강화하는 것을 목표로 한다.

이 접근법은 모델의 신뢰성을 높이고 환각(hallucination) 문제를 감소시키는 효과가 있다. 또한 우리의 방법론은 불확실성 인식을 알 수 없는 질문 샘플을 직접 학습시키는 대신 메타인지(metacognitive) 능력으로 학습시키는 독특한 방식으로, 다양한 작업(task)에 효과적으로 적용될 수 있도록 한다. 본 논문은 오픈소스화되어 있으며, 자동화된 지시사항 데이터셋 생성의 발전을 촉진하고, 데이터 다양성 확보와 환각 문제 완화의 중요성을 강조하고자 한다.

제한 사항 (Limitations)

본 연구에서는 향후 개선해야 할 두 가지 주요 영역을 식별하였다. 첫째, 모델은 알 수 없는 질문 수가 제한적인 데이터셋으로 튜닝 시 롱테일(long-tail) 문제를 겪게 되므로, 이를 보완할 수 있도록 추가로 US-Tuning 방식을 개선할 필요가 있다. 둘째, Llama2 모델이 사전학습(pre-training) 동안 습득한 파라메트릭 지식을 분석하지 않았기 때문에, 우리의 파인튜닝 데이터가 사전학습 데이터와 중복될 수 있고, 이는 성능에 영향을 미칠 가능성이 있다.

이러한 과제를 해결하기 위해 향후 연구는 Lu 등(2023)이 제안한 내부 파라미터 모니터링을 통해 모델의 불확실성을 정량적으로 측정하는 방법을 탐구할 예정이다. 이를 통해 입력 데이터의 불확실성을 평가하여 모델이 가지는 지식 공백과 롱테일 문제를 식별하고, 다양한 쿼리에 대한 성능을 향상시킬 수 있는 보다 타겟팅된 파인튜닝 전략을 모색할 것이다.

Reference

https://arxiv.org/pdf/2406.10099

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-304, Know the Unknown: An Uncertainty-Sensitive Method for LLM Instruction Tuning, Findings of ACL 2025