NL-307, Large Language Models Must Be Taught to Know What They Don’t Know, NeurIPS 2024

Abstract

대규모 언어 모델(LLM)을 중요한 의사 결정 애플리케이션에서 사용할 때는 언제 모델의 예측을 신뢰할 수 있는지 파악할 필요가 있다. 일부 연구에서는 고성능 LLM에 프롬프팅(prompting)만으로도 불확실성의 신뢰할 만한 보정(calibration)을 할 수 있다고 주장하는 반면, 다른 연구들은 과도하게 비용이 높은 샘플링 방법을 제안하기도 한다. 본 연구에서는 우선 프롬프팅만으로는 좋은 보정 결과를 얻기에 불충분하다는 점을 지적하고, 그 다음 적은 수의 올바른 및 잘못된 답변으로 구성된 데이터셋을 이용한 미세조정(fine-tuning)이 일반화 성능이 우수하고 계산 비용도 낮은 불확실성 추정치를 제공할 수 있음을 보여준다.

우리는 천 개의 등급이 매겨진 예시(graded examples)만으로도 기존 베이스라인 방법들보다 성능을 향상시킬 수 있고, 모델의 특징(features)을 통해 학습하는 것이 좋은 성능을 내기 위해 필요하며, LoRA를 사용할 경우 오픈 소스 대규모 모델에서도 효율적으로 실현 가능하다는 것을 보인다. 또한 우리는 신뢰할 수 있는 LLM의 불확실성 추정이 가능한 메커니즘을 탐구하고, 많은 모델들이 자신의 불확실성뿐 아니라 다른 모델의 불확실성까지도 평가할 수 있는 범용적인 불확실성 추정기로 사용될 수 있다는 사실을 발견했다. 마지막으로, 사용자 연구를 통해 LLM의 불확실성 추정치가 인간-AI 협업 환경에서 인간의 LLM 사용 방식을 향상시킬 수 있음을 입증한다.

1 Introduction

"덱사메타손 억제 검사에서 코티솔 수치는 높지만 ACTH 수치는 낮게 나타났습니다. 저는 어떻게 해야 하나요?" 만약 이러한 질문에 대한 답변이 자신감(confidence) 없이 주어진다면 아무런 조치를 취할 수 없으며, 반대로 잘못된 높은 자신감을 가진 답변이 주어진다면 이를 따르는 것은 위험할 수 있다. 

대규모 언어 모델(LLM)이 사회에 긍정적인 영향을 끼치고 신뢰성 있는 의사결정에 활용될 수 있는지 여부에 관한 가장 중요한 미해결 문제 중 하나는, 모델이 출력값의 정확성에 대한 불확실성을 얼마나 정확하게 표현할 수 있는지에 달려 있다.

LLM이 불확실성을 얼마나 정확히 표현하는지, 또는 언어 모델을 이용하여 불확실성을 표현할 때 어떻게 접근해야 하는지에 대해서는 합의가 이루어지지 않았다. 언어 모델이 직접적으로 프롬프팅을 통해, 별도의 미세조정이나 훈련 데이터 변경 없이 불확실성을 추정하는 능력이 점점 향상되고 있다고 주장하는 연구들[25, 51]이 있는가 하면, 다른 연구에서는 LLM이 자신의 예측에 대해 여전히 과도한 자신감을 가진다고 주장하기도 한다[60, 61]. LLM에서의 불확실성 추정 작업은 자유형 생성(freeform generation)에서 나타나는 언어적 변동성(linguistic variance)에 의해 더욱 복잡해지며, 훈련 과정에서 모든 가능성을 포괄적으로 다룰 수는 없다. 따라서 LLM 사용자들은 어떤 추정 방법을 사용할지 결정하는 어려움에 직면해 있다.

언어 모델을 위한 불확실성 추정 방법론의 중요한 양분점 중 하나는 추정치가 블랙박스(black-box)인지, 화이트박스(white-box)인지 여부다. 블랙박스 추정치는 훈련을 요구하지 않으며, GPT-4[1]나 Gemini[48] 같은 비공개 모델(closed-source models)에도 적용할 수 있다. 반면 화이트박스 방법은 보정(calibration) 데이터셋에서 모델 파라미터를 훈련해야 한다. 블랙박스 추정치는 접근이 제한된 모델들의 등장으로 인해 인기를 얻었으나, LLaMA[53]나 Mistral[24] 같은 강력한 오픈소스 모델의 접근성이 증가함에 따라 보다 효과적인 화이트박스 방법들이 더욱 접근 가능해졌다.

본 논문에서는 LLM의 불확실성 보정(uncertainty calibration)에 대해 심도 있게 조사하여, 좋은 보정을 위해 필요한 개입(intervention)에 대한 논의를 발전시킨다. 특히, 추가적인 개입 없이 정확성(correctness)에 대한 양호한 불확실성을 얻을 수 있는지, 라벨이 지정된 정확성 사례(labeled correctness examples)를 어떻게 가장 잘 활용할 수 있는지, 불확실성이 분포 변화(distribution shifts)에 얼마나 잘 일반화되는지, 그리고 LLM의 불확실성을 어떻게 인간의 의사 결정을 돕는 데 활용할 수 있는지를 다룬다.

먼저, 우리는 보다 나은 불확실성을 위한 미세조정(fine-tuning)이 비교적 적은 추가 파라미터만을 사용하면서도 빠르고 신뢰할 수 있는 불확실성 추정치를 제공한다는 사실을 밝혔다(그림 1). 또한, 이 방법으로 생성된 불확실성은 미세조정 데이터셋에 존재하지 않는 새로운 질문 유형과 과제들에도 일반화된다. 또한 우리는 보정 데이터셋을 사용하여 언어 모델이 자신이 모르는 것을 인지할 수 있도록 학습시키는 가이드라인을 제시한다. 기존 연구와 달리, 우리는 현재의 제로샷(Zero-shot) 블랙박스 방법이 개방형 환경(open-ended setting)에서 효과가 없거나 비현실적으로 비용이 높다는 것을 먼저 보였다(섹션 4). 그런 다음 언어 모델의 보정을 위한 미세조정 방법을 소개하고, 가장 효과적인 파라미터화(parameterization, 예: linear probe vs. LoRA)와 좋은 일반화를 얻기 위해 필요한 데이터의 양을 탐색한다(섹션 5). 일반화를 검증하기 위해, 보정 데이터와 유사한 형식의 질문뿐만 아니라 상당한 분포 변화에 대한 견고성을 테스트할 수 있는 질문에 대해서도 불확실성 추정치를 평가하였다. 마지막으로, 미세조정된 LLM이 자신의 불확실성을 추정할 수 있게 만드는 기본 메커니즘을 탐구하며, 결과적으로 모델이 자신의 불확실성뿐 아니라 다른 모델들의 불확실성까지도 추정할 수 있음을 보였다(섹션 6). 오프라인 평가를 넘어, 언어 모델이 사회적으로 폭넓게 영향을 미치려면 인간의 의사 결정을 돕는 형태로 작용할 것이므로, 우리는 사용자 연구를 통해 LLM의 불확실성이 AI-인간 협업에 어떤 영향을 주는지를 입증했다(섹션 7).
























Reference

댓글