NL-288, Alignment for Honesty, NeurIPS 2024
◼ Comment
- 이 논문은 안다는 것을 잘 말하고, 모른다는 것을 모르게 말하자. 이렇게 모델을 alignment learning을 하려고 하는것
- 즉 모르면 모른다고 말함으로써 환각을 줄이려고 하는거라 봐도 될듯?
- 물론 논문은 환각에 초점을 맞춰서 하는 것은 아님
- 방법은 모델 M이 있을때, 이거를 학습해서 M'가 되면,
- M일때 맞추고,틀리고,모른다고 한 답변에 대해
- M'가 어떻게 답변하냐에 따라 잘 align됐다라고 보는 것임
- 테이블 1이랑 식5,6보면 어떻게 평가되는지 알 수 있음
- 학습 방법은
- TriviaQA 데이터에 대해 모델이 여러 응답을 하도록 샘플링한다
- 응답에서 얼마나 정답이 나왔는지에 따라, 학습데이터 쌍을 만든다
- 예로 10개 응답 뽑았는데 7개정답, 3개오답이라하면, 이 녀석은 모델이 알고 있는 답변이라는 것
- 그러면 응답<->정답(7개 응답중 하나 샘플링)해서 데이터 만든다
- 만약, 10개 응답중, 7개가 오답이라면, 이 녀석은 모르는 답변이라는 것
- 그러면 응답<->I don't know 이런식으로 데이터 만든다
- 물론 이 threhold을 어떻게 주냐에 따라도 다르겠고
- 그냥 70%점 이렇게 confidence을 줄 수도 있고
- confidence에 따라 매우 잘안다, 조금 안다, ... 이런식르로 세분화할 수도 있다
- 아니면 그냥 모든 샘플을 데이터로 볼 수도 있다
- 물론 틀린 답변은 I don't know 식으로 대체하는 것
- 이렇게 만든 데이터로 학습하면 "나는 모른다"라는 답변이 나올텐데, 이것으로 위에 말한대로 평가하게 된다
- 결과적으로 성능(acc)는 조금 손해보지만, 메트릭상 정직성 점수가 올라간다고 함
- 데이터세트 소스는 TriviaQA이고, 학습모델은 LLaMA2-Chat (instructed model)임
Abstract
최근 연구들은 대형 언어 모델(LLM)을 사람에게 도움을 주면서도 무해하게 만드는 정렬(alignment)에 큰 진전을 이루었다. 본 논문에서는 모델이 과도하게 보수적이지 않으면서도 자신이 모르는 질문에 대해서는 능동적으로 답변을 거부하도록 하는, 정직성(honesty)을 위한 정렬의 중요성을 주장한다. 하지만 정직성을 위한 정렬의 핵심은 LLM의 지식 범위를 명확하게 구별하는 것이며, 이는 측정 지표 개발, 벤치마크 생성, 훈련 방법론의 측면에서 종합적인 해결책을 요구한다.
본 논문에서는 우선 명확한 문제 정의를 통해 공자의 『논어』에서 영감을 얻어 "정직성"의 개념을 정의한다. 이는 정렬 이후 모델의 정직성 향상을 정량적으로 측정할 수 있는 지표 개발의 초석이 된다. 또한 성능 손실 없이 정직성을 강조하는 효율적인 파인튜닝(fine-tuning) 기법들을 포함하는 유연한 훈련 프레임워크를 제안한다.
폭넓은 실험 결과, 우리가 제안한 지표를 통해 확인할 때 정렬된 모델이 상당히 더 높은 정직성을 나타낸다는 것을 보여준다. 본 논문의 모든 관련 자료는 향후 연구 촉진을 위해 오픈소스로 제공한다: https://github.com/GAIR-NLP/alignment-for-honesty.
1. 서론(Introduction)
아는 것을 안다고 하고, 모르는 것을 모른다고 하는 것, 그것이 바로 앎이다.
– 공자, 『논어』
최근 대형 언어 모델(LLM; Large Language Models)의 성공에 기여하는 핵심 요인은 인간의 가치와 의도에 맞추도록 모델을 정렬(alignment)하는 과정이다(Brown 외, 2020; OpenAI, 2023a; Anil 외, 2023; Kenton 외, 2021; Ouyang 외, 2022).
이러한 정렬의 기본 원칙은 흔히 "HHH"(Helpful, Harmless, Honest), 즉 **유용성(helpfulness), 무해성(harmlessness), 정직성(honesty)**으로 요약된다(Askell 외, 2021). 그동안의 연구는 LLM의 유용성과 무해성을 높이는 데 상당한 집중을 해왔다(Bai 외, 2022a, 2022b). 하지만 신뢰할 수 있고 안전한 AI를 구축하는 데 있어서 중요성에도 불구하고(Kaddour 외, 2023; Liu 외, 2023; Park 외, 2023), 정직성에 대한 연구는 상대적으로 덜 이루어졌다(Evans 외, 2021; Kadavath 외, 2022; Cui 외, 2023). 모델의 정직성을 높이는 데에는 몇 가지 근본적인 도전 과제들이 있다.
첫 번째 도전 과제는 AI 모델에 적용할 수 있는 "정직성"의 정의 자체에 대한 오랜 논쟁이다(Mahon, 2015; Yudkowsky, 2018). 본질적으로, 정직성은 모델이 자신이 가진 지식 수준에 충실하고 이를 솔직하게 표현하는 것을 요구한다(Askell 외, 2021; Schulman, 2023). 본 논문에서는 공자의 『논어』의 정신을 바탕으로 하여 "정직성"을 정의한다. 즉, 정직한 모델은 자신이 아는 질문에 대해서는 솔직하게 답하고, 모르는 질문에 대해서는 겸손하게 인정하는 모델이다(Fig.1 참조). 일부 연구는 모델의 답변이 어느 정도의 불확실성을 전달해야 한다는 캘리브레이션(calibration)을 강조하며(Lin 외, 2022a; Cui 외, 2023), 이는 알고 있는 질문에 대해 더욱 세밀한 처리를 하는 것으로 간주할 수 있다.
두 번째 도전 과제는 특정 LLM이 가진 지식의 경계를 명확하게 구별하는 문제, 즉 알고 있는 것과 모르는 것을 구분하는 데 있다. 이 작업이 현실적으로 어려운 이유는 대부분의 LLM이 사전 훈련(pretraining) 데이터에 대한 투명성이 부족할 뿐만 아니라, 모델이 훈련 데이터에 완벽히 적합(fit)되었더라도, 이를 기반으로 사실적 질문에 유연하고 정확하게 대응하는 능력이 부족하기 때문이다(Zhu와 Li, 2023; Allen-Zhu와 Li, 2023). 이에 따라 본 논문에서는 "지식(knowledge)" 자체에서 "질문(question)"으로 초점을 옮기고, 특정 모델이 특정 질문에 올바른 답변을 제공할 능력이 있는지에 근거하여 모델이 답변을 거부해야 하는지 여부를 판단한다.
정직성을 위한 정렬(alignment)의 이점은 직관적이다. 첫째, 모델이 스스로의 한계를 솔직히 인정하면, 겉보기에는 일관되지만 사실은 잘못된 정보를 만들어내는 환각(hallucination) 문제를 완화할 수 있다(Ji 외, 2023c; Zhang 외, 2023). 모델이 보다 정직해지면 사용자는 외부 자원에 의존하지 않고도 모델의 답변을 더욱 신뢰할 수 있게 되어, 정직한 LLM을 배포할 때 비용이 더 적게 들면서도 사용성과 신뢰성을 유지할 수 있다. 간단히 말하면, 정직성을 위한 정렬은 LLM이 사람의 의도를 이해하고 이에 부합하는 신뢰도를 높이는 기초를 제공한다.
그러나 이러한 모든 이점에도 불구하고, 여전히 정직성을 위한 정렬의 체계적 프레임워크는 부족하다. 이에 본 논문에서는 그러한 프레임워크를 소개한다. 우선 우리는 문제 정의를 형식화(formalize)한다. 특히 "모른다"(idk, I don't know)라는 응답의 개념을 도입하고, 이 맥락에서 정직성은 정렬된 LLM이 모르는 질문에는 idk 응답을, 아는 질문에는 정확한 응답을 제공하는 것을 필수로 한다. 그런 다음 모델의 지식 경계를 보다 정밀하게 구별하고, 정직성 측면에서 정렬의 효과를 평가하기 위해 진화적(evolutionary) 평가 지표를 정의하는데, 여기에는 모델이 자신의 지식 범위를 벗어난 질문에 적절히 답변을 거부하는 능력을 측정하는 신중함 점수(prudence score)와 지나친 보수성을 나타내는 과보수성 점수(over-conservativeness score)가 포함된다. 또한 우리는 정직성을 위한 정렬 수행 방법을 제안한다. 실험 결과 프롬프트(prompt)만으로는 충분하지 않다는 점을 확인하고, 정직성을 위한 간단하면서도 효과적인 지도 학습 기반 파인튜닝 방법을 제시한다. 광범위한 실험을 통해 우리가 제안한 방법들이 다양한 지식 기반 질의응답(knowledge-intensive question answering) 작업에 걸쳐 일반화될 수 있으며, 정렬 과정에서 모델의 유용성을 크게 떨어뜨리지 않는다는 것을 입증한다. 이는 정직성 정렬을 위한 비용("alignment tax")이 낮다는 것을 나타낸다.
다시 강조하면, 본 논문은 단지 정렬을 위한 새로운 훈련 방법을 제안하는 것에서 그치지 않고, 다음과 같은 방식으로 이 분야에 기여하고자 한다:
- (1) 서로 다른 개념을 명확히 구분하고 (§A), LLM의 정직성을 위한 정렬을 다룰 때 주목해야 할 지점을 설정하며, 핵심 도전 과제를 제시한다(§2.3).
- (2) 외부 근사를 통해 모델이 알고 있는 것과 모르는 것의 경계를 파악하는 방법을 제안한다(§2.2). 이는 정직성 정렬을 위한 특수 평가 지표 개발뿐만 아니라 향후 연구에서 보다 정교한 근사의 가능성을 연다.
- 이 부분이 모델 학습의 목적인듯. 모르는 것은 모른다 답변하기
- (3) 정직성을 위한 데이터를 자동으로 합성하는 다양한 접근법을 제시하며(§3.2), 이를 통해 서로 다른 특징 함수(feature function)에 따라 정의된 문제로 변형하여 향후 연구에 폭넓은 가능성을 제공한다.
- 자동으로 데이터 만드는 법이 노벨티가 있는것일 듯?
- (4) 도메인 내 평가뿐만 아니라 (§4.4), 특수 구성된 데이터에 기반한 일반화 분석(§4.5)과 정렬 과정에서 발생하는 비용("alignment tax") 분석(§4.6)을 포함하는 포괄적 평가 프레임워크를 수립한다.
- I apologize가 idk 에 해당하는 의미로 보임
2. 문제 정의(Problem Formulation)
LLM(대형 언어 모델)을 훈련할 때 점점 더 일반적인 기술적 워크플로(workflow)로 자리 잡고 있는 것이 사전 훈련(pre-training) 및 반복적 정렬(iterative alignment)이다(Touvron 외, 2023; Li 외, 2023c). 아래에서는 먼저 LLM에서 일반적으로 "정렬(alignment)"이 어떻게 이루어지는지를 공식화하고, 이어서 정직성을 위한 정렬의 필요성을 제시한다.
2.1 대형 언어 모델의 정렬(LLM Alignment)
응답 생성(Response Generation)
입력값 와 번째 반복 정렬(iteration of alignment) 단계에 있는 대형 언어 모델 가 주어졌을 때, 응답 의 생성 과정은 다음과 같이 표현될 수 있다:
가치 판단(Value Judging)
이 과정은 모델의 응답 가 인간이 정의한 가치(value)에 얼마나 부합하는지를 정량적으로 측정하는 가치 함수(value function) 를 정의한다. 예를 들어, 정렬의 목표가 "무해성(harmlessness)"이라면, 의 바람직한 정의는 다음과 같을 수 있다:
는 일반적으로 인간의 주석(annotation)을 통해 측정되거나(Ouyang 외, 2022), 인간 선호도를 기반으로 학습된 프록시(proxy) 모델을 통해 측정된다(Gao 외, 2023). 이는 본 논문의 그림 Fig. 2-(b)에 도식화되어 있다.
반복적 정렬(Iterative Alignment)
인간이 정량적으로 정의한 가치 에 보다 잘 정렬되도록 모델은 그림 Fig. 2-(a)에 묘사된 것과 같이 반복적으로 최적화된다:
여기서 는 정렬되지 않은 사전 훈련된 대형 언어 모델을 나타낸다(예를 들어, LLaMA2의 베이스 버전). 그리고 는 지도 학습 파인튜닝(supervised fine-tuning)과 같은 정렬 전략을 의미한다.
예) 즉 기존 모델 Mt에다가, 무해성 label이(여기서는 value) 달린 데이터로 SFT하면 Mt+1이 된다는 것
여기서 "반복(iteration)"이란 하나의 단일 훈련 세션(training session)의 여러 에포크(epoch)를 의미하는 것이 아니라, 모델에 대한 정렬 훈련 사이클 하나가 완료되어 만들어진 모델의 특정 버전을 나타낸다. 예를 들어, LLaMA2-Chat의 최종 버전은 다섯 차례의 연속된 버전(M₁,..., M₅)에 걸쳐 완성된 것이다(Touvron 외, 2023).
2.2 정직성을 위한 정렬(Alignment for Honesty)
모델 내부에서 지식이 "알고 있다(known)" 혹은 "모른다(unknown)"인지 여부를 파악하는 것은 어려운 작업이다(Fig. 2-(c) 참조).
- 하지만 우리가 접근할 수 있는 것은 모델이 외부적으로 보여주는 행동, 즉 정답을 맞히는지 틀리는지의 여부이다.
- 따라서 우리는 모델의 내부 지식을 응답의 정확성 여부를 통해 근사(approximate)한다.
모델 응답의 정확성을 바탕으로 다음과 같은 범주화(categorization)를 정의한다:
여기서,
-
type(y) = idk (모른다): 응답 에 "죄송합니다만 답변을 드릴 수 없습니다", "저는 이 질문에 대해 잘 모릅니다"와 같은 idk 신호(idk signs)가 포함된 경우를 의미한다. 즉, 모델이 질문에 대한 정확한 답변 를 제공할 능력이 없다는 것을 나타낸다.
-
type(y) = correct (정답): 응답 에 idk 신호가 없으면서, 정답 가 응답 의 일부로 포함된 경우이다.
-
type(y) = wrong (오답): 응답 에 idk 신호가 없으면서, 정답 가 응답 에 포함되지 않은 경우이다.
이렇게 정의하면 정직성을 위한 가치 함수 는 다음과 같이 표현될 수 있다:
여기서 는 모델 가 입력 에 대한 정답을 알고 있는지 판단하는 함수이며, 는 1 또는 -1의 값을 가진다. 따라서 질문이 모델이 모르는 질문(unknown)이라면, 모델이 명시적으로 idk를 선택했을 때 는 1이 된다.
- x=입력, y=응답
- 이상적인 상황이라고 가정해보면,
- 모델이 알고 있는 지식이고, 답변도 맞힌경우 => v(x,y)=1
- 모델이 모르고 있는 지식이고, 답변도 idk경우 => v(x,y)=1
- 그 외는 v(x,y)=0
- 이렇게하면 value가 제대로 정의되는 것이다
- 근데 모델이 알고 모르는 것인, k(x)을 어떻게 계산하냐가 어려울텐데, 이에 대한 탐구를 하겠다라는 것 같음
앞서 언급했듯, 모델이 특정 지식을 알고 있는지 또는 모르는지를 정확히 정의하는 것은 쉬운 일이 아니다. 그러나 위에서 정의한 범주화 함수 를 이용하여, 특정 질문에 대해 모델의 이해 정도를 근사적으로 판단할 수 있다. 예를 들어, 로 간주할 수 있으며, 이 논문의 3.2절에서는 에 대한 다양한 정의를 탐구할 것이다.
2.3 평가 방법론(Evaluation Methodology)
언어 모델이 얼마나 정렬되었는지를 평가하는 데에도 여러 가지 어려움이 존재한다. 예컨대, 정렬된 모델이 자신의 한계를 더 잘 인정하는가? 또는 정직성을 지나치게 추구하다가 모델이 너무 보수적(conservative)이 되진 않았는가? 이런 경향을 어떻게 정량적으로 측정할 수 있을까?
이러한 질문들에 답하기 위해, 우리는 정직성 측면에서 정렬 전후의 차이를 다양한 관점에서 평가할 수 있는 진화적 지표(evolutionary metrics)를 정의하는 평가 프레임워크를 개발하였다. 직관적으로, 정렬(alignment)은 모델이 진화하는 과정(즉, 에서 으로 변화하는 과정이며, 여기서 는 다른 가치들에 대해서는 정렬되었을지라도 정직성 측면에서는 정렬되지 않은 모델을 나타낸다)이기 때문에, 정렬 이전과 이후 모델의 변화량을 비교하는 것은 자연스러운 접근이다.
먼저, 이전에 정의한 함수 를 2차 형태로 확장하여 로 나타내고, 여기서 와 은 각각 모델 와 정렬된 버전 이 생성한 응답이다. 표 1에서는 의 모든 가능한 경우들을 나열하고 있다.

- 여기서 빨간색 부분중 7은 원래 맞혔는데, 모델이 학습되고 나니 모른다고 답변하게 되는것이고, 이는 보수적이라는 것?
평가 데이터셋 가 주어졌을 때, 테스트 샘플의 수를 으로, 특정 유형의 응답 수를 로 나타낸다. 위의 정의를 바탕으로 우리는 다음과 같은 정량적 지표(metrics)를 설계한다.
신중함 점수(Prudence Score)
이 지표는 모델이 잘 모르거나 틀릴 수 있는 질문에 대해 겸손하게 답변을 거부하는 정도를 나타낸다. 정직성을 잘 갖춘 모델의 기본적 특성은 자기 한계를 인정하고 자신의 지식 범위를 벗어난 질문에는 응답하지 않는 것이다. 이런 맥락에서 신중함 점수를 다음과 같이 정의한다(표 1의 파란 영역을 기반으로 계산):
- 이거는 모델이 학습되도 모르거나 틀리는 문제기 때문에, 모른다고 답하는게 낫다.
- 따라서 분자에 8,9가 들어가고, 분모에는 학습되고 나서도 모르거나 틀리는 총합이 들어가는 듯
과보수성 점수(Over-Conservativeness Score)
이 지표는 모델이 정렬 작업 이후, 원래는 정답을 알고 있던 질문에 대해서도 지나치게 답변을 거부하는 정도를 나타낸다. 모델이 특정 질문에 "모릅니다(idk)"라고 응답하도록 허용하면, 지나치게 신중해질 수도 있다. 다시 말하면, 실제로 알고 있는 질문임에도 답변을 회피할 가능성이 있다. 우리는 이런 경향을 정량화하기 위해 과보수성 점수를 도입한다(표 1의 빨간 영역 기반으로 계산):
- 이거는 모델이 학습되고 나니, 웬걸? 알던걸 모른다고 하네 ==> 과보수성이라는 개념으로 설명
- 근데 알던걸 틀리는것은 다른 메트릭에서 고려안하나? ==> 아래에서 설명
정직성 점수(Honesty Score)
앞서 정의한 두 지표를 종합하여, 모델이 답변을 거부하는 능력(신중함)과 지나치게 신중해지지 않는 능력(적절한 확신)을 모두 고려한 정직성 점수를 정의할 수 있다:
표 1에서 ⃝2와 ⃝3은 정렬 과정이 이전에 잘못 응답했거나 몰랐던 질문을 올바르게 응답하게 하는 경우를 나타낸다.
이 개선에는 정렬을 통해 기존에 이미 알던 답변을 더 잘 생성하도록 돕거나(Burns 외, 2023; Li 외, 2023b; Joshi 외, 2023), 훈련 과정에서 새로운 지식이 도입된 것과 같은 여러 요인이 존재할 수 있다.
- 본 연구에서는 이에 초점을 두지 않으나, 향후 유망한 연구 분야로 남겨두었다.
- 이런 경우는 정렬 과정 중 모델의 원래 능력이 감소(파국적 망각, catastrophic forgetting; Lin 외, 2024; Shumailov 외, 2023)될 수 있는데, 이는 불성실(dishonesty)의 개념과 분리하여 다뤄야 하므로 여기서는 별도의 지표로 다루지 않는다.
위 지표말고도, 학습되고 나서 모르거나 틀리던걸 맞추거나 / 알던걸 틀리거나 하는 경우도 살펴보면 좋을것이나 여기서는 다루지는 않는다고 함
- 대신 정렬 과정이 모델의 원래 능력을 얼마나 방해하는지 측정하기 위해 정확도(accuracy)를 사용할 것을 제안한다(Joshi 외, 2017).
- 대신 원래 능력이 얼마나 향상되는지 acc로 간략히 보는 느낌
마지막으로, idk 응답을 도입한 후 모델이 불확실성을 나타내는 idk 신호를 사용하면서 동시에 정답을 제공하는 소수의 경우도 관찰되었다.
- 우리는 정답이 포함된 모든 응답(idk 신호가 있든 없든)을 "느슨한 정답(loosely correct)"으로 분류한다.
- 그리고 정확도는 느슨한 정답의 비율로 계산된다:
- idk 신호가 있든 말든, 정답이 포함되면 정답으로 간주
3. 훈련 방법론(Training Methodology)
본 절에서는 앞서 2장에서 정의한 바와 같이, 모델 를 정직성 측면에서 더욱 정렬된 모델 로 변화시키는 방법을 소개한다(Eq. 2 참고).
3.1 훈련이 필요 없는 방법(Training-free Method)
가장 직관적인 방법 중 하나는 모델 의 파라미터를 업데이트하지 않고, 단순히 프롬프트(prompt)를 통해 보다 정직한 응답을 유도하는 것이다. 본 논문에서 연구된 프롬프트 예시는 다음과 같으며, 이 프롬프트는 모델이 질문에 답변할 수 없음을 명시적으로 표현할 수 있게 허용하고 있다:

이 접근법의 장점은 편리하다는 것이지만, 단점은 모델이 지니고 있는 본래의 지시 수행 능력(instruction following)과 맥락 내 학습 능력(in-context learning)에 크게 의존한다는 것이다. 또한, 그 결과는 충분히 견고하지 않고, 사용된 프롬프트의 형태에 쉽게 영향을 받을 수 있다.
이후 3.2절(Supervised Fine-tuning)에서는 지도학습 기반의 파인튜닝(supervised fine-tuning) 방법을 자세히 소개합니다.
즉 기존 모델을 프롬프트로 idk 능력을 부여해보는 베이스라인? 같음
3.2 지도학습 기반 파인튜닝(Supervised Fine-tuning)
지도학습 기반 파인튜닝은 정렬(alignment)의 또 다른 흔한 방법으로, 모델이 이미 습득한 지식을 바탕으로 보다 정직한 답변을 제공하도록 하는 감독(supervised) 데이터를 만들어 모델을 훈련시키는 방식이다.
이 경우의 주된 도전 과제는, 특정 질문에 대해 모델이 정답을 알고 있는지 모르는지를 정확히 판단하는 것, 즉 함수 를 어떻게 정의할 것인가이다.
앞서 2.2절에서 언급했듯, 특정 질문에 대한 모델의 이해 정도를 근사적으로 판단하기 위해 범주화 함수(categorization function) 를 이용한다.
구체적으로, 질문 와 모델 가 동일한 질문에 대해 번 시도하여 얻은 응답들 이 주어졌을 때, 모델의 예상 정확도(expected accuracy)를 개의 후보 응답 중 정답을 포함하는 응답의 비율로 정의한다.
- self-consistency처럼 여러 개 응답을 샘플링하고, 이 중에 정답이 얼마나 있는지로 판단한다?
- 즉 질문-응답 의 학습 데이터 쌍을 만들어야 하는데, 응답을 어떻게 매칭시킬꺼냐 문제인데
- 정답 비율로 응답을 어떻게 구성할지 아래 3가지 방법이 제시됨
그리고 이를 바탕으로, Fig. 3에서 보듯 서로 다른 정렬 전략(alignment strategy)을 제안하는데, 여기에는 함수 정의 방법과 훈련 데이터의 생성(annotation) 방식이 포함된다.

3.2.1 ABSOLUTE
함수 정의
ABSOLUTE 방법에서, 모델이 질문에 대한 답을 아는지의 여부는 동일한 질문에 대해 일관되게 정답을 제공할 수 있는 능력에 따라 결정된다. 구체적으로, 예상 정확도(expected accuracy)가 특정 임계값 이상인 모든 질문을 알고 있는 샘플(known samples)로 취급할 수 있다. 따라서,
훈련 샘플 주석(annotation)
-
"알고 있는 질문"(즉, )의 경우, 모델 가 생성한 정답 응답 중 하나를 무작위로 선택하여 훈련 샘플의 출력(output)으로 사용한다.
-
"모르는 질문"의 경우, 사전에 정의된 idk 응답(예: "I apologize, but I’m not able to provide an answer to the question.")을 훈련 샘플의 최종 출력으로 사용한다.
위 그림 예시에서, 정답이 7개임. 그러면 아는 응답이라고 간주하는 거임 (threholsd가 0.7보다 작게 세팅하면)
그러면 7개 정답 응답중, 하나 골라서 훈련 샘플로 사용하겠다
3.2.2 CONFIDENCE (자신감 기반 방법)
앞선 방법(ABSOLUTE)은 주어진 질문에 대한 모델의 자신감을 고려하지 않았다. 이러한 점을 보완하고자, CONFIDENCE 방법이 제안되었으며, 여기에서도 의 정의는 ABSOLUTE 방법과 동일하다.
훈련 샘플 주석(annotation)
이 방법에서는 모델이 알고 있는 질문(known samples)의 출력(output)에 자신감을 표현하는 접두어(prefix)를 추가한다. 예를 들어, 질문이 “Who was the first president of the USA?(미국의 초대 대통령은 누구인가?)” 일 때, 모델이 샘플링 응답에서 나타내는 예상 정확도(expected accuracy)가 0.9(90%)라면, ABSOLUTE 방법과는 다르게 CONFIDENCE 방법은 정답을 제공하는 것 이상의 역할을 수행한다. 즉, 모델은 자신의 자신감을 표현하는 수준을 출력에 포함하게 된다. 예를 들어 다음과 같은 형태가 될 수 있다:
-
"I’m about 90% confident to answer the question correctly, and the answer is George Washington."
("저는 이 질문에 대해 약 90%의 확신을 가지고 있으며, 정답은 조지 워싱턴입니다.") -
"I’m absolutely certain that George Washington was the first president of the USA."
("저는 조지 워싱턴이 미국의 초대 대통령이라는 것에 절대적으로 확신합니다.")
자신감을 표현하는 방식에는 다양한 형태가 있으므로, 우리는 다음 두 가지 접근법을 개발하였다.
-
CONFIDENCE-NUM: 숫자 형태로 자신감을 표현하는 방식
(예: "90% 확신합니다.") -
CONFIDENCE-VERB: 언어적 형태로 자신감을 표현하는 방식
(예: "절대적으로 확신합니다.")
이 두 가지 방법의 구체적인 출력 형식(output formats)에 대한 세부 내용은 논문의 부록(§D.2)에 제시되어 있다.
- 즉 여기서는 정답 비율을 응답에 표현하도록 녹이겠다는 것이다.
- 자세하게는 아래처럼 2가지 CONFIDENCE 표현하는 방식이 있다.
3.2.3 MULTISAMPLE (다중 샘플 방법)
함수 의 정의
모델이 훈련 중 각 질문에 대해 다양한 자신감을 인지하도록 하기 위해, 여기서는 모델이 생성한 개의 샘플 응답들의 집합을 활용한다. 구체적으로 질문 와 하나의 응답 가 주어졌을 때, 다음과 같이 정의한다:
훈련 샘플 주석(annotation)
예를 들어, 질문 에 대해 개의 샘플링된 응답이 있다고 가정하자. 만약 이 중 단 하나의 응답 만이 오답이고, 나머지 아홉 개의 응답 은 표현상 약간의 차이가 있지만 모두 정답을 포함하고 있다고 하면, 훈련 데이터셋에 다음과 같이 추가한다:
-
오답 응답 의 경우, ( ) 를 추가한다.
-
즉, 원래의 오답 응답을 "idk(모른다)" 형태로 변경하여 추가한다.
-
-
나머지 정답 응답 는 각각 ( ) 를 그대로 훈련 데이터셋에 추가한다.
결과적으로, 이 방법은 이전 방법들(ABSOLUTE와 CONFIDENCE)에 비해 동일한 질문에 대해 훈련 데이터셋의 크기가 약 배 확장되는 효과를 가지게 된다.
- 이거는 그냥 모든 샘플을 학습데이터로 쓴다는거인듯. 물론 틀린 정답은 idk 형식으로 답변을 바꾸고
- 나라면 이렇게 할거 같긴함
- 학습 과정을 보면, 결국 자기가 샘플링한걸 재학습하는건데, 틀린건은 idk 처리해서 재학습한다는 것이다
4 Experiments
4.1 훈련 설정(Training Settings)
정직성을 목표로 하는 지도학습 기반의 파인튜닝(supervised fine-tuning)을 수행하기 위해, 우리는 대규모 지식 기반 질문-답변 데이터셋인 TriviaQA(Joshi et al., 2017)에서 8,000개의 데이터를 샘플링하여 훈련 데이터셋으로 사용하며, §3.2에서 설명한 방식에 따라 대조적(contrastive) 샘플을 라벨링하였다. 실험에서는 LLAMA2-CHAT 모델 시리즈(Touvron et al., 2023)를 사용하였다. LLAMA2-CHAT 모델들은 이미 사람의 선호도를 반영하여 특별히 정렬(fine-tuned)된 상태임에도 불구하고, 본 논문의 실험 결과에 따르면 여전히 정직성 측면에서 추가적인 향상의 여지가 있음을 확인할 수 있었다.
데이터세트 소스는 TriviaQA이고, 학습모델은 LLaMA2-Chat (instructed model)임
훈련 데이터셋 구성(construction of training dataset) 및 구체적인 훈련 절차(training procedures)에 대한 자세한 내용은 본 논문의 부록(§D.3 및 §D.4)에 기술되어 있다.
4.2 평가 설정(Evaluation Settings)
평가 데이터셋과 모델이 주어졌을 때, 모델의 성능 평가는 온도(temperature) 값을 0으로 설정한 상태에서 생성된 모델 응답을 기반으로 수행한다. 정렬(alignment)의 진행 상황은 정확도(accuracy) 및 앞서 2.3절에서 소개한 진화적(evolutionary) 지표들을 사용하여 평가된다. 구체적으로, 과 모델 간의 비교뿐 아니라, 모델과 그 자체의 비교 역시 수행된다.
모델이 생성한 응답 중 "모른다"(idk) 응답은 부록(§D.1)에 기술된 휴리스틱(heuristic) 규칙을 사용하여 판별한다. 또한 정답(correct) 및 오답(wrong) 응답의 판별은 다음 두 가지 방법을 이용하여 결정한다.
-
문자열 매칭(string match) 방법
-
ChatGPT (즉, gpt-3.5-turbo-0613 모델; OpenAI, 2023b)를 활용한 분석 방법
더욱 구체적인 내용은 본 논문의 부록(§C)에 자세히 기술되어 있다.
자세한 평가는 부록을 봐야하긴 할듯4.3 베이스라인(Baselines)
UNALIGNED BASELINE
이 방법은 일반적인 질의응답 프롬프트(prompt)를 사용하는, 정렬되지 않은 모델 를 이용한다. 프롬프트의 형태는 다음과 같다.
"Q: <질문>\nA:"
FINE-TUNED BASELINE
또한 우리는 지도학습 기반 파인튜닝을 사용한 베이스라인을 설정한다.
이 베이스라인은 동일한 8,000개의 훈련 샘플을 사용하여 파인튜닝을 수행하되, ABSOLUTE 방법과는 달리, 모델이 모르는 질문(unknown questions)의 경우 모델의 원래 응답을 idk 응답으로 교체하는 것이 아니라, TriviaQA 데이터셋에서 제공하는 정답(gold answers)으로 교체하여 훈련을 진행한다.
그냥 주어진 데이터세트의 gold answer로 학습하는 것. 어떻게 보면 더 양질의 데이터를 쓰는 것?
4.4 실험-I: 분포 내 평가 (Exp-I: In-distribution Evaluation)
4.4.1 전체 결과 (Overall Results)
LLaMA2-Chat-13B 모델을 TriviaQA 평가 세트에서 평가한 결과가 Table 3에 나타나 있다.
강조할 점은, 만약 모델이 "모른다(idk)"는 표현을 하지 않으려고 하면, 가장 좋은 과보수성 점수(0)와 가장 나쁜 신중함 점수(0)를 얻어 결과적으로 불만족스러운 정직성 점수(50.00%)를 얻게 된다는 것이다. 실험 결과에서 다음과 같은 관찰을 할 수 있다.
정직성 중심의 파인튜닝 방법들은 뛰어난 성능을 보였다.
전반적으로, 우리가 제안한 지도학습 기반의 파인튜닝 방법들은 다른 접근법들에 비해 지속적으로 정직성 점수(honesty score)를 향상시키면서도 높은 정확도(accuracy)를 유지한다.
모델이 잘 정렬됐나 보려면 honesty를 보면되고 성능은 acc보면 되긴함
이는 정렬된 모델들이 단지 기능적인 상태를 유지하는 것뿐 아니라 신뢰성(reliability)을 현저히 향상시켜, 정직성 측면에서 정렬의 가능성을 보여준다는 것이다.
보다 구체적으로, 이 방법들은 신중함 점수(prudence score)를 상당히 증가시키는데, 이는 모델이 잘 모르는 질문에 대해 잘못된 답변을 만들어 내기보다는 응답을 거부하는 경향이 더 크다는 것을 의미한다.
추가적으로, 유사하거나 더 낮은 과보수성 점수(over-conservativeness score)가 보여주듯, 프롬프트 기반의 방법(PROMPT-BASED)과 비교하여 실제로 아는 질문에 대해서는 잘못된 거부(false abstention)가 더 적게 나타났다. 이는 정직성 중심의 파인튜닝 방법이 알고 있는 질문에 대한 모델의 정직한 응답을 효과적으로 촉진할 수 있음을 나타낸다.
훈련 시 예상 정확도를 명시적으로 포함시키는 것이 정직성 성능을 향상시켰다.
- ABSOLUTE 전략을 사용하는 경우, 특정 경우에 모델이 idk 응답을 제공할 수 있다는 점을 알려주지만, 이는 모델의 자신감을 고려하지는 않는다.
- 직관적으로, 모델이 질문에 대해 90% 확신을 가지는 경우와 20% 확신을 가지는 경우 사이에는 상당한 차이가 존재한다.
- 반면, CONFIDENCE와 MULTISAMPLE 방법들은 명시적으로 예상 정확도(expected accuracy)를 훈련 신호(training signal)로 활용한다.
- 구체적으로, CONFIDENCE는 알고 있는 질문에 대해 미리 설정된 자신감 표현(confidence expressions)을 제공하며, 이는 보다 세분화된 감독(supervision) 신호 역할을 하여 모델이 자신의 지식 경계(knowledge boundaries)를 더 정확히 포착할 수 있도록 한다.
또한 MULTISAMPLE 방법은 확장된 훈련 데이터 내에서 샘플링된 개의 응답들 중 정답 응답과 idk 응답의 비율에서 모델이 암묵적으로 학습하도록 허용함으로써, 모델이 자신의 지식 경계를 더 세밀히 인식하게 한다. 결과적으로 이러한 방법들은 모델이 약간 더 보수적이 되는 경향이 있지만, 현저히 향상된 정직성 점수를 얻는다.
MULTISAMPLE이 가장 높은 정직성 점수를 얻었고, CONFIDENCE-VERB는 가장 높은 정확도를 얻었다.
- MULTISAMPLE 방법은 약간의 과보수성이 있지만, 신중함 점수 및 정직성 점수에서 다른 방법들보다 우수한 성능을 보인다.
- 지나치게 신중해지지 않으면서도 신뢰할 수 있는 응답을 제공하기 때문에 사용자들에게 가장 신뢰받을 수 있는 정렬된 모델이다.
- 또한 CONFIDENCE-VERB 방법은 UNALIGNED BASELINE에 이어 두 번째로 높은 정확도를 보였다.
- 높은 정확도는 여러 요인이 복합적으로 작용한 결과로 보이며, 예를 들어 추론 시 추가적인 계산 부하(computational load)가 있거나, 미세하게 알고 있는 지식에 대한 파인튜닝 시 명시적인 자신감 접두어(confidence prefix)를 사용함으로써 환각(hallucinations)을 완화하는 효과 등이 있을 수 있다(Gekhman et al., 2024).
- 정확도 향상 요인들을 완전히 밝히는 것은 추가적인 연구가 필요하며, 이는 향후 연구에서 가치 있게 논의될 수 있을 것이다.
4.4.2 확장성 및 적응성 (Scalability and Adaptability)
본 논문에서 제안한 방법들은 모델의 크기(model size)에 있어 확장성(scalability)을 보였다. 이에 대한 보다 상세한 결과는 작은 모델 및 더 큰 모델을 대상으로 수행한 추가 실험을 부록(§D.5.2)에 수록하였다. 또한, 본 방법들은 특정 언어 모델에 국한되지 않으며, 다양한 널리 알려진 오픈 소스 LLM들에 대해서도 적응 가능함(adaptability)을 보여주었다. 이를 검증하기 위해 InternLM(InternLM, 2023), Qwen(Bai 외, 2023), Baichuan2(Baichuan, 2023)를 포함한 여러 인기 있는 LLM들을 사용한 추가 실험 결과를 부록(§D.5.3)에 기술하였다.
4.5 실험 II: 분포 외 평가 (Out-of-distribution Evaluation)
모든 모델의 분포 외(out-of-distribution) 성능을 평가하기 위해, 기존의 데이터셋인 Non-AmbigQA(NQ-Open 데이터셋(Kwiatkowski 외, 2019) 중 질문이 명확하고 답변이 모호하지 않은 부분집합(Min 외, 2020))를 사용하고, 추가로 PUQA 및 PKQA라는 두 가지 특별한 데이터셋을 구축하였다.
- 구체적으로 PUQA(Prior Unknown QA)는 2023년에 출판된 과학 문헌들에 관한 1,000개의 질문을 포함하며, 이 질문들은 모델이 사전에 알 수 없도록 세심하게 설계되었으며, 본질적으로 도전적인 문제들로 구성되어 있다.
- PKQA(Prior Known QA)는 모델이 대부분 알고 있을 것으로 추정되는 1,000개의 질문으로 이루어져 있다.
- 이에 관한 보다 자세한 내용은 부록(§C)을 참조하라.
Table 4는 위의 세 가지 데이터셋에 대한 결과를 제시하며, 다음과 같은 관찰 결과를 얻었다:
정직성 중심의 파인튜닝 방법은 전이 가능하다(transferable).
CONFIDENCE-VERB 방법을 예로 들어보자. 이 방법은 세 가지 데이터셋 모두에서 일관되게 베이스라인보다 우수한 성능을 나타내었으며, 응답 거부 능력을 현저히 향상시키면서 원래 성능의 감소를 최소화하였다.
이 세 가지 데이터셋과 훈련 데이터셋인 TriviaQA 간의 분포 차이를 고려하면, 정직성 중심의 파인튜닝 방법들이 낮은 비용으로 실제로 알고 있는 질문과 모르는 질문에 각각 다르게 반응하도록 학습했으며, TriviaQA 데이터에 기반한 지름길(shortcut)을 사용하지 않았다는 점을 보여준다.
정직성 중심이 아닌 파인튜닝은 LLM이 환각(hallucination)을 학습하게 만든다.
PKQA 데이터셋에서 수행한 실험 결과를 보면, 질문들이 모델 스스로 생성된 것임에도 불구하고, 추가적인 지시(instruction)가 도입되었을 때 모델의 응답에 미세한 영향이 있음을 관찰할 수 있었다. 게다가, 독특한 현상도 발견하였다.
FINE-TUNED BASELINE은 정확도를 10점 정도 떨어뜨려 다른 방법들보다 눈에 띄게 나쁜 성능을 보였다. 본 연구진은 이 현상이 Schulman(2023), Zhang 외(2023)가 제안한 관점과 관련 있을 수 있다고 생각한다.
즉, 지도학습 기반의 파인튜닝 과정에서 모델이 자신의 지식 범위를 벗어난 질문들에 무리하게 답변을 제공하도록 강요받으면서 의도치 않게 환각을 학습하게 되었을 가능성이 있다는 것이다. 참고로, FINE-TUNED BASELINE의 훈련 데이터 중에는 모델이 알기 어렵다고 예상되는 질문들의 답변이 약 25% 정도 포함되어 있었다.
① Non-AmbigQA 데이터셋
기본 설명:
-
Non-AmbigQA는 기존의 NQ-Open 데이터셋(Natural Questions Open, Kwiatkowski 외, 2019)에서 질문이 명확하고 답변이 명백히 모호하지 않은(non-ambiguous) 부분만 추출한 데이터셋입니다.
-
원래 NQ-Open 데이터셋은 사람들이 구글 검색에서 던진 실제 질문들로 구성되어 있는데, 일부 질문은 명확하지 않고 답변이 여러 개 있을 수 있어 모호합니다. 따라서 모델의 성능을 보다 정확히 평가하기 위해 질문이 명확하고 답변이 하나뿐인 부분만 따로 추출하여 만든 데이터셋이 Non-AmbigQA입니다(Min 외, 2020).
특징 및 사용 목적:
-
질문과 답변이 명확하므로, 모델이 분포 내에서의 지식 일반화 및 정직성 평가에 적합합니다.
-
모델이 실제로 알고 있는지 여부를 명확히 판별하기 쉬우므로, 평가 시 오차를 줄일 수 있습니다.
예시 질문 형태:
-
"Who wrote Harry Potter?"
-
"What is the capital city of France?"
② PUQA (Prior Unknown QA) 데이터셋
기본 설명:
-
PUQA는 Prior Unknown QA의 약자로, "모델이 사전에 알 수 없는 질문"으로 구성된 데이터셋입니다.
-
논문에서 사용된 PUQA는 특히 2023년에 새롭게 출판된 과학 논문들에 관한 1,000개의 질문으로 이루어져 있습니다.
특징 및 사용 목적:
-
모델의 훈련 데이터가 일반적으로 2023년 이전의 데이터이기 때문에, 2023년 최신 논문에 대한 질문은 모델이 알 수 없는 것이 명확합니다.
-
따라서 모델이 모르는 질문에 대해서도 정직하게 "모릅니다"라고 응답하는지, 아니면 잘못된 답변을 생성(환각)하는지 평가하는 데 사용됩니다.
예시 질문 형태:
-
"Who wrote the paper titled 'Mitigating Hallucination in LLMs (2023)'?"
-
최신 논문의 저자, 제목 등과 같이 모델이 학습하지 않은 최신 정보를 요구하는 질문으로 구성됩니다.
③ PKQA (Prior Known QA) 데이터셋
기본 설명:
-
PKQA는 Prior Known QA의 약자로, 모델이 이미 알고 있을 확률이 매우 높은 질문들로 구성된 데이터셋입니다.
-
PKQA는 특별히 모델 자체가 직접 생성한 질문으로 이루어져 있습니다. 즉, 모델 스스로가 만들어낸 간단한 지식 기반의 질문들이므로, 모델이 그 질문에 대한 답을 모를 가능성이 낮습니다.
특징 및 사용 목적:
-
PKQA는 모델이 알고 있는 지식 범위 안에 있는 질문들에 대해서도 정직하게 잘 대답하는지를 평가하는 데 사용됩니다.
-
만약 모델이 알고 있음에도 지나치게 신중하거나 보수적으로 답변을 거부한다면 과보수성(over-conservativeness)을 나타내는 신호로 간주됩니다.
-
모델이 알고 있는 질문에 대한 정확도(accuracy)와 지나친 보수성을 평가하는 데 적합합니다.
예시 질문 형태:
-
"Who was the first president of the United States?"
-
"What is the capital of Japan?"
이러한 질문들은 일반 상식과 같이 모델이 이미 충분히 학습했을 것으로 기대되는 내용들입니다.
정리 (요약)
데이터셋 이름 | 출처 | 질문 유형 | 평가 목적 |
---|---|---|---|
Non-AmbigQA | 기존의 NQ-Open 데이터셋에서 명확한 부분만 발췌 | 명확하고 답이 하나뿐인 질문 | 분포 내 성능 평가 |
PUQA | 직접 구축 (최신 논문 기반) | 모델이 사전에 알 수 없는 최신 질문 | 모르는 질문에 대한 정직성 평가 |
PKQA | 모델이 직접 생성한 질문들 | 모델이 사전에 알 확률이 높은 간단한 질문 | 알고 있는 질문에서의 정확도와 과보수성 평가 |
이렇게 세 가지 데이터셋은 서로 다른 목적과 특성을 가지고 있으며, 이를 통해 모델이 "알고 있는 질문"과 "모르는 질문"을 명확히 구분하고, 각각에 대해 얼마나 정직하고 정확한 답변을 내놓는지를 평가하는 데 활용됩니다.
4.6 실험 III: 정렬 비용(Alignment Tax)
모델이 질문에 대한 답변을 거부하도록 파인튜닝된 경우, 모델이 덜 유용(helpful)하게 되는 것은 아닌지라는 의문이 생길 수 있다.
이를 조사하기 위해 Li 외(2023a)가 제안한 유용성(helpfulness) 데이터셋을 활용하여 정렬(alignment) 이전과 이후의 모델 유용성을 평가하였다.
이 데이터셋은 Eval-P⁻(부록의 §C.5 참조)로 명명되며, 요약(summarization), 창의적 글쓰기(creative writing), 일반적인 커뮤니케이션(general communication) 등을 포함한 다양한 유용성 관련 요청으로 구성되어 있어, 지식 기반 QA 작업과는 다른 요구 사항을 가지고 있다.
모델의 응답을 평가하기 위해 AUTO-J(Li 외, 2023a)와 GPT-4(gpt-4-0613, OpenAI, 2023a)를 모두 활용했으며, 이들은 모델 응답에 대해 1에서 10까지의 척도로 점수를 제공한다.
Eval-P⁻ 데이터셋에서 AUTO-J 및 GPT-4가 평가한 유용성 점수(helpfulness scores)는 Table 5에 나타나 있다. 결과로부터, CONFIDENCE-VERB 및 MULTISAMPLE 방법은 모두 유용성 평가에서 UNALIGNED BASELINE과 유사한 성능을 달성한 것으로 나타났다.
- 이는 정직성을 목표로 LLM을 정렬하는 과정에서 발생하는 비용(alignment tax)이 모델의 전반적인 유용성에 심각한 영향을 미치지 않으며, 따라서 정렬 과정의 실용성을 강조하는 결과라 할 수 있다.
5. 한계점 및 향후 연구(Limitations and Future Work)
5.1 정직성 정의의 함정(Pitfalls in Defining Honesty)
본 논문에서는 기존 문헌에서 오래 전부터 사용되어 온 개념에 따라 정직성(honesty)을 정의하고 있지만(Askell 외, 2021; Cui 외, 2023), 다음과 같은 간략화된 가정들을 사용하여, 모델의 외부적 행동(external behaviors)을 통해 내부적 사고(internal thinking)를 합리적으로 근사(approximate)하려고 시도했다.
정직성(Honesty) 대 진실성(Truthfulness)
Evans 외(2021), Park 외(2023)에 따르면, 정직성(honesty)은 모델이 자신이 믿고 있는 바를 말하는 것(saying what it believes)을 의미하는 반면, 이와 유사한 개념인 진실성(truthfulness)은 객관적으로 참인 것을 말하는 것(saying what is objectively true)을 의미한다. 본 논문에서는 모델의 지식 경계(knowledge boundaries)를 탐구하기 위해, 모델이 학습한 내용을 고려하지 않고 단순히 정확한 정보를 제공하도록 독려하는 대신, "정직성(honesty)"에 초점을 맞추었다. 하지만 모델의 내부적 추론(internal reasoning)을 탐구하는 것은 복잡한 문제이다. 이에 본 연구에서는 일반적인 지식 기반 질문(TriviaQA(Joshi 외, 2017))을 고려하면, 일반적으로 사용되는 LLM이 잘못된 응답을 할 때는, 모델이 잘못된 믿음을 학습한 경우보다는 무언가를 꾸며내는(making something up) 경우가 더 많을 것이라는 가정을 세웠다.
거짓말(lying)을 하지 않는 경우
일반적인 사람의 부정직(dishonesty)한 행동은 보통 거짓말(lying)을 포함하지만, 현재의 LLM들은 특별한 프롬프트(prompt)나 파인튜닝(fine-tuning), 또는 특정 맥락에 놓여있지 않은 한, 일반적으로 "알고 있는"(know) 정답을 의도적으로 잘못 제공하지는 않는다(Pacchiardi 외, 2023; Park 외, 2023; Scheurer 외, 2023). 따라서 본 연구에서는 이러한 가능성을 고려 범위에서 제외하였다.
추가로, 보다 복잡한 시나리오를 고려하는 것은 향후 연구에서 다뤄볼 가치가 있는 과제이며, 이는 잠재적 지식(latent knowledge)을 끌어내는 방법이나 파국적 망각(catastrophic forgetting)과 부정직(dishonesty)의 개념을 분리하는 문제 등을 포함한다(§2.3에서 언급한 바와 같다).
5.2 향후 연구 과제 (Future Work)
더욱 발전된 함수 정의 방법 탐구
본 논문에서 사용한 현재의 방법은 질문에 대한 정답 여부와 같은 모델의 외부적 행동을 바탕으로 모델이 가진 지식의 경계를 근사(approximate)하는 방식이었지만, 이 접근 방식은 완벽하지 않다. 따라서 향후 연구에서는 모델이 특정 질문의 답을 "알고 있는지(know)" 여부를 결정하는 보다 정교한 방법론을 탐구할 필요가 있다.
불확실성(uncertainty) 표현에 대한 추가적 탐색
CONFIDENCE 방식은 모델이 서로 다른 수준의 자신감을 표현하도록 하였다. 하지만 본 연구의 목적은 모델의 출력(output)에 대한 자신감(confidence)을 캘리브레이션(calibration)하는 것이 아니며, 응답에 idk 신호 또는 정답 포함 여부만 중점적으로 다루었다. 자유 생성(free-form generation)에 있어 잘 보정된 자신감 표현(calibrated confidence expressions)의 정의와 실현 가능성에 대해서는 여전히 추가 탐구의 여지가 있다.
표현 수준(representation-level)에서의 정직성 정렬(alignment for honesty)
최근 연구(Li 외, 2023b; Zou 외, 2023)는 표현공학(representation engineering)의 효과를 입증하고 있다. 본 논문과는 지식의 범위가 다르긴 하지만(이 연구들은 이미 알고 있는 질문에 대해 진실한 답을 이끌어내는 데 초점을 맞추며, 본 논문은 모델이 알고 있는 질문과 모르는 질문 모두에 대한 모델의 행동 조정을 목표로 함), 향후 연구에서는 정직성을 최소한으로 침해하며 정렬을 달성하기 위해, LLM의 표현 수준에서 접근하는 방법들을 더 탐구하기를 기대한다.
6. 결론(Conclusion)
본 연구에서는 **정직성을 위한 정렬(Alignment for Honesty)**이라는 새로운 프레임워크를 제시하였다. 이는 대형 언어 모델(LLM)이 외부 자원에 의존하지 않고도 적절할 때 능동적으로 질문에 대한 답변을 거부하는 능력을 요구한다. 이를 달성하기 위해, "모른다(idk)"는 응답의 개념을 도입하고, 모델이 "모른다"라는 표현을 할 수 있을 때, 응답의 품질과 신뢰성을 측정할 수 있는 새로운 평가 지표(metrics)를 제안하였다.
또한, 본 논문에서는 정직성 중심의 여러 가지 파인튜닝 방법들을 제안하고, 폭넓은 실험을 통해 정직성을 위한 정렬의 실현 가능성을 입증하였다. 우리는 이번 연구가 자연어처리(NLP) 커뮤니티에서 더욱 정직한 AI 모델 개발에 대한 더 깊은 논의를 촉진하기를 희망한다.
Reference
댓글
댓글 쓰기