NL-307, Large Language Models Must Be Taught to Know What They Don’t Know, NeurIPS 2024
Abstract 대규모 언어 모델(LLM)을 중요한 의사 결정 애플리케이션에서 사용할 때는 언제 모델의 예측을 신뢰할 수 있는지 파악할 필요가 있다. 일부 연구에서는 고성능 LLM에 프롬프팅(prompting)만으로도 불확실성의 신뢰할 만한 보정(calibration)을 할 수 있다고 주장하는 반면, 다른 연구들은 과도하게 비용이 높은 샘플링 방법을 제안하기도 한다. 본 연구에서는 우선 프롬프팅만으로는 좋은 보정 결과를 얻기에 불충분하다는 점을 지적하고, 그 다음 적은 수의 올바른 및 잘못된 답변으로 구성된 데이터셋을 이용한 미세조정(fine-tuning)이 일반화 성능이 우수하고 계산 비용도 낮은 불확실성 추정치를 제공할 수 있음을 보여준다. 우리는 천 개의 등급이 매겨진 예시(graded examples)만으로도 기존 베이스라인 방법들보다 성능을 향상시킬 수 있고, 모델의 특징(features)을 통해 학습하는 것이 좋은 성능을 내기 위해 필요하며, LoRA를 사용할 경우 오픈 소스 대규모 모델에서도 효율적으로 실현 가능하다는 것을 보인다. 또한 우리는 신뢰할 수 있는 LLM의 불확실성 추정이 가능한 메커니즘을 탐구하고, 많은 모델들이 자신의 불확실성뿐 아니라 다른 모델의 불확실성까지도 평가할 수 있는 범용적인 불확실성 추정기로 사용될 수 있다는 사실을 발견했다. 마지막으로, 사용자 연구를 통해 LLM의 불확실성 추정치가 인간-AI 협업 환경에서 인간의 LLM 사용 방식을 향상시킬 수 있음을 입증한다. 1 Introduction "덱사메타손 억제 검사에서 코티솔 수치는 높지만 ACTH 수치는 낮게 나타났습니다. 저는 어떻게 해야 하나요?" 만약 이러한 질문에 대한 답변이 자신감(confidence) 없이 주어진다면 아무런 조치를 취할 수 없으며, 반대로 잘못된 높은 자신감을 가진 답변이 주어진다면 이를 따르는 것은 위험할 수 있다. 대규모 언어 모델(LLM)이 사회에 긍정적인 영향을 끼치고 신뢰성 있는 의사결정에 활용될 수 있는지 ...