NL-307, Large Language Models Must Be Taught to Know What They Don’t Know, NeurIPS 2024

Abstract

대규모 언어 모델(LLM)을 중요한 의사 결정 애플리케이션에서 사용할 때는 언제 모델의 예측을 신뢰할 수 있는지 파악할 필요가 있다. 일부 연구에서는 고성능 LLM에 프롬프팅(prompting)만으로도 불확실성의 신뢰할 만한 보정(calibration)을 할 수 있다고 주장하는 반면, 다른 연구들은 과도하게 비용이 높은 샘플링 방법을 제안하기도 한다. 본 연구에서는 우선 프롬프팅만으로는 좋은 보정 결과를 얻기에 불충분하다는 점을 지적하고, 그 다음 적은 수의 올바른 및 잘못된 답변으로 구성된 데이터셋을 이용한 미세조정(fine-tuning)이 일반화 성능이 우수하고 계산 비용도 낮은 불확실성 추정치를 제공할 수 있음을 보여준다.

우리는 천 개의 등급이 매겨진 예시(graded examples)만으로도 기존 베이스라인 방법들보다 성능을 향상시킬 수 있고, 모델의 특징(features)을 통해 학습하는 것이 좋은 성능을 내기 위해 필요하며, LoRA를 사용할 경우 오픈 소스 대규모 모델에서도 효율적으로 실현 가능하다는 것을 보인다. 또한 우리는 신뢰할 수 있는 LLM의 불확실성 추정이 가능한 메커니즘을 탐구하고, 많은 모델들이 자신의 불확실성뿐 아니라 다른 모델의 불확실성까지도 평가할 수 있는 범용적인 불확실성 추정기로 사용될 수 있다는 사실을 발견했다. 마지막으로, 사용자 연구를 통해 LLM의 불확실성 추정치가 인간-AI 협업 환경에서 인간의 LLM 사용 방식을 향상시킬 수 있음을 입증한다.

1 Introduction

"덱사메타손 억제 검사에서 코티솔 수치는 높지만 ACTH 수치는 낮게 나타났습니다. 저는 어떻게 해야 하나요?" 만약 이러한 질문에 대한 답변이 자신감(confidence) 없이 주어진다면 아무런 조치를 취할 수 없으며, 반대로 잘못된 높은 자신감을 가진 답변이 주어진다면 이를 따르는 것은 위험할 수 있다. 

대규모 언어 모델(LLM)이 사회에 긍정적인 영향을 끼치고 신뢰성 있는 의사결정에 활용될 수 있는지 여부에 관한 가장 중요한 미해결 문제 중 하나는, 모델이 출력값의 정확성에 대한 불확실성을 얼마나 정확하게 표현할 수 있는지에 달려 있다.

LLM이 불확실성을 얼마나 정확히 표현하는지, 또는 언어 모델을 이용하여 불확실성을 표현할 때 어떻게 접근해야 하는지에 대해서는 합의가 이루어지지 않았다. 언어 모델이 직접적으로 프롬프팅을 통해, 별도의 미세조정이나 훈련 데이터 변경 없이 불확실성을 추정하는 능력이 점점 향상되고 있다고 주장하는 연구들[25, 51]이 있는가 하면, 다른 연구에서는 LLM이 자신의 예측에 대해 여전히 과도한 자신감을 가진다고 주장하기도 한다[60, 61]. LLM에서의 불확실성 추정 작업은 자유형 생성(freeform generation)에서 나타나는 언어적 변동성(linguistic variance)에 의해 더욱 복잡해지며, 훈련 과정에서 모든 가능성을 포괄적으로 다룰 수는 없다. 따라서 LLM 사용자들은 어떤 추정 방법을 사용할지 결정하는 어려움에 직면해 있다.

언어 모델을 위한 불확실성 추정 방법론의 중요한 양분점 중 하나는 추정치가 블랙박스(black-box)인지, 화이트박스(white-box)인지 여부다. 블랙박스 추정치는 훈련을 요구하지 않으며, GPT-4[1]나 Gemini[48] 같은 비공개 모델(closed-source models)에도 적용할 수 있다. 반면 화이트박스 방법은 보정(calibration) 데이터셋에서 모델 파라미터를 훈련해야 한다. 블랙박스 추정치는 접근이 제한된 모델들의 등장으로 인해 인기를 얻었으나, LLaMA[53]나 Mistral[24] 같은 강력한 오픈소스 모델의 접근성이 증가함에 따라 보다 효과적인 화이트박스 방법들이 더욱 접근 가능해졌다.

본 논문에서는 LLM의 불확실성 보정(uncertainty calibration)에 대해 심도 있게 조사하여, 좋은 보정을 위해 필요한 개입(intervention)에 대한 논의를 발전시킨다. 특히, 추가적인 개입 없이 정확성(correctness)에 대한 양호한 불확실성을 얻을 수 있는지, 라벨이 지정된 정확성 사례(labeled correctness examples)를 어떻게 가장 잘 활용할 수 있는지, 불확실성이 분포 변화(distribution shifts)에 얼마나 잘 일반화되는지, 그리고 LLM의 불확실성을 어떻게 인간의 의사 결정을 돕는 데 활용할 수 있는지를 다룬다.

먼저, 우리는 보다 나은 불확실성을 위한 미세조정(fine-tuning)이 비교적 적은 추가 파라미터만을 사용하면서도 빠르고 신뢰할 수 있는 불확실성 추정치를 제공한다는 사실을 밝혔다(그림 1). 또한, 이 방법으로 생성된 불확실성은 미세조정 데이터셋에 존재하지 않는 새로운 질문 유형과 과제들에도 일반화된다. 또한 우리는 보정 데이터셋을 사용하여 언어 모델이 자신이 모르는 것을 인지할 수 있도록 학습시키는 가이드라인을 제시한다. 기존 연구와 달리, 우리는 현재의 제로샷(Zero-shot) 블랙박스 방법이 개방형 환경(open-ended setting)에서 효과가 없거나 비현실적으로 비용이 높다는 것을 먼저 보였다(섹션 4). 그런 다음 언어 모델의 보정을 위한 미세조정 방법을 소개하고, 가장 효과적인 파라미터화(parameterization, 예: linear probe vs. LoRA)와 좋은 일반화를 얻기 위해 필요한 데이터의 양을 탐색한다(섹션 5). 일반화를 검증하기 위해, 보정 데이터와 유사한 형식의 질문뿐만 아니라 상당한 분포 변화에 대한 견고성을 테스트할 수 있는 질문에 대해서도 불확실성 추정치를 평가하였다. 마지막으로, 미세조정된 LLM이 자신의 불확실성을 추정할 수 있게 만드는 기본 메커니즘을 탐구하며, 결과적으로 모델이 자신의 불확실성뿐 아니라 다른 모델들의 불확실성까지도 추정할 수 있음을 보였다(섹션 6). 오프라인 평가를 넘어, 언어 모델이 사회적으로 폭넓게 영향을 미치려면 인간의 의사 결정을 돕는 형태로 작용할 것이므로, 우리는 사용자 연구를 통해 LLM의 불확실성이 AI-인간 협업에 어떤 영향을 주는지를 입증했다(섹션 7).

📌 결론 (Conclusion)

본 논문은 대규모 언어모델(LLM)의 불확실성을 정확히 표현하는 문제를 다루었으며, 기존의 블랙박스 방법론이 개방형(Open-ended) 문제에서 신뢰할 만한 불확실성 보정을 제공하지 못한다는 점을 지적하였습니다. 이를 극복하기 위해, 소규모의 라벨링된 데이터로 LLM을 미세조정(fine-tuning)하여 빠르고 효율적이며 신뢰도 높은 불확실성 추정을 가능하게 하는 방법을 제안했습니다. 제안된 미세조정 방식은 소량의 추가 파라미터만을 사용하면서도 기존 블랙박스 방식들보다 월등한 성능과 일반화를 보였으며, 심지어 다른 모델이 생성한 답변의 불확실성까지도 효과적으로 예측할 수 있음을 실험적으로 입증했습니다. 나아가 인간-AI 협업 환경에서 모델의 불확실성 정보가 사용자의 의사결정 능력을 향상시키는 데 긍정적인 영향을 미칠 수 있다는 점을 사용자 연구를 통해 밝혔습니다.

결과적으로, 본 논문은 향후 보다 신뢰성 있고 안전한 LLM 활용을 위한 중요한 단계를 제시하며, 실용적이고 효과적인 불확실성 보정을 위해서는 적절한 미세조정이 필수적임을 강조합니다.

📌 주요 기여 (Key Contributions)

이 논문의 핵심 기여는 다음과 같이 정리할 수 있습니다.

  1. 기존 방식의 한계 분석

    • 프롬프팅만으로는 개방형 질문에 대한 정확한 불확실성 추정이 어렵다는 점을 명확히 제시함.

    • 제로샷 블랙박스 방식이 개방형 문제에서 성능이 제한적이거나, 계산 비용이 매우 높다는 점을 지적함.

  2. 미세조정(Fine-tuning) 기반의 불확실성 보정 방법론 제안

    • 소량(약 1000개)의 라벨링된 데이터만으로도 기존의 베이스라인 방법론을 능가하는 성능을 확보할 수 있음을 입증함.

    • LoRA(low-rank adaptation)를 사용한 효율적인 미세조정으로 대규모 오픈소스 모델에서도 실현 가능한 방법론을 제시함.

  3. 불확실성 추정의 일반화 성능 입증

    • 학습 데이터에 존재하지 않는 새로운 유형의 질문이나 도메인에서도 미세조정된 불확실성 추정이 우수하게 일반화됨을 보임.

    • 주제나 형식이 바뀌더라도 불확실성 추정의 성능이 잘 유지되는 견고성을 실험적으로 검증함.

  4. 불확실성 메커니즘의 이해 심화

    • LLM이 단순히 특정 문제의 어려움을 학습하는 것이 아니라, 질문과 올바른 답변 간의 관계를 학습함으로써 효과적으로 불확실성을 표현할 수 있음을 밝혀냄.

    • 특정 모델의 내부 표현에만 의존하는 것이 아니라, 한 모델이 다른 모델의 불확실성까지도 예측할 수 있다는 사실을 발견하여 실무적 활용성을 높임.

  5. 인간-AI 협업 환경에서의 불확실성의 가치 입증

    • 사용자가 AI의 신뢰할 수 있는 불확실성 추정 결과를 참고할 때, 보다 합리적이고 신중한 의사결정을 내릴 수 있다는 점을 사용자 연구를 통해 확인함.

    • 특히, 신뢰도 높은 불확실성 정보가 사용자로 하여금 언제 AI를 신뢰할지 판단하는 데 중요한 역할을 함을 보임.

Reference

댓글