NL-307, Large Language Models Must Be Taught to Know What They Don’t Know, NeurIPS 2024

Abstract 대규모 언어 모델(LLM)을 중요한 의사 결정 애플리케이션에서 사용할 때는 언제 모델의 예측을 신뢰할 수 있는지 파악할 필요가 있다. 일부 연구에서는 고성능 LLM에 프롬프팅(prompting)만으로도 불확실성의 신뢰할 만한 보정(calibration)을 할 수 있다고 주장하는 반면, 다른 연구들은 과도하게 비용이 높은 샘플링 방법을 제안하기도 한다. 본 연구에서는 우선 프롬프팅만으로는 좋은 보정 결과를 얻기에 불충분하다는 점을 지적하고, 그 다음 적은 수의 올바른 및 잘못된 답변으로 구성된 데이터셋을 이용한 미세조정(fine-tuning)이 일반화 성능이 우수하고 계산 비용도 낮은 불확실성 추정치를 제공할 수 있음을 보여준다. 우리는 천 개의 등급이 매겨진 예시(graded examples)만으로도 기존 베이스라인 방법들보다 성능을 향상시킬 수 있고, 모델의 특징(features)을 통해 학습하는 것이 좋은 성능을 내기 위해 필요하며, LoRA를 사용할 경우 오픈 소스 대규모 모델에서도 효율적으로 실현 가능하다는 것을 보인다. 또한 우리는 신뢰할 수 있는 LLM의 불확실성 추정이 가능한 메커니즘을 탐구하고, 많은 모델들이 자신의 불확실성뿐 아니라 다른 모델의 불확실성까지도 평가할 수 있는 범용적인 불확실성 추정기로 사용될 수 있다는 사실을 발견했다. 마지막으로, 사용자 연구를 통해 LLM의 불확실성 추정치가 인간-AI 협업 환경에서 인간의 LLM 사용 방식을 향상시킬 수 있음을 입증한다. 1 Introduction "덱사메타손 억제 검사에서 코티솔 수치는 높지만 ACTH 수치는 낮게 나타났습니다. 저는 어떻게 해야 하나요?" 만약 이러한 질문에 대한 답변이 자신감(confidence) 없이 주어진다면 아무런 조치를 취할 수 없으며, 반대로 잘못된 높은 자신감을 가진 답변이 주어진다면 이를 따르는 것은 위험할 수 있다.  대규모 언어 모델(LLM)이 사회에 긍정적인 영향을 끼치고 신뢰성 있는 의사결정에 활용될 수 있는지 ...

NL-306, Safety Alignment Should be Made More Than Just a Few Tokens Deep, ICLR 2025 (oral)

이미지
Abstract 현재의 대형 언어 모델(Large Language Models, LLM)의 안전성 정렬(safety alignment)은 취약한 상태다. 상대적으로 간단한 공격이나 심지어 악의 없는 미세 조정(benign fine-tuning)만으로도 정렬된 모델(aligned models)의 안전장치를 무력화(jailbreak)할 수 있다. 우리는 이러한 취약성의 대부분이 공통적으로 근본적인 문제와 연관되어 있다고 주장한다. 즉, 안전성 정렬이 모델의 생성 분포(generative distribution)를 초기 출력 토큰의 극소수에만 국한하여 조정하는 '얕은 안전성 정렬(shallow safety alignment)'이라는 문제 때문이다. 본 논문에서는 여러 사례 연구를 통해 왜 이러한 얕은 안전성 정렬이 발생할 수 있는지 설명하고, 현재 정렬된 LLM들이 이 문제의 영향을 받고 있음을 보여준다. 또한 최근에 발견된 다양한 LLM 취약성들이 얕은 안전성 정렬로 설명될 수 있음을 입증한다. 여기에는 적대적 접미사 공격(adversarial suffix attacks), 미리 채우기 공격(prefilling attacks), 디코딩 매개변수 공격(decoding parameter attacks), 미세 조정 공격(fine-tuning attacks)에 대한 취약성이 포함된다. 중요하게도 우리는 얕은 안전성 정렬이라는 통합된 개념을 통해 이러한 취약성을 완화하기 위한 유망한 연구 방향들을 제시한다. 예를 들어, 안전성 정렬을 최초 몇 토큰 이상의 더 깊은 수준으로 확장하면 일반적인 공격에 대한 견고성(robustness)을 크게 개선할 수 있음을 보였다. 또한 초기 토큰의 업데이트를 제한하여 미세 조정 공격에 대해 안전성 정렬이 더 지속적이도록 하는 정규화된 미세 조정 목표(regularized fine-tuning objective)를 설계하였다. 결론적으로, 미래의 안전성 정렬은 단지 몇 개의 초기 토큰 이상으로 심화되어야 한다고 제...

NL-305, Understanding Finetuning for Factual Knowledge Extraction, ICML 2024

Abstract 본 연구에서는 QA(질의응답) 파인튜닝 데이터가 모델의 사실적 성능(factuality)에 미치는 영향을 분석하였다. 사전학습(pretraining) 과정에서 잘 기억되지 않은, 상대적으로 덜 알려진 사실(lesser-known facts)에 대해 파인튜닝을 할 경우, 사전학습 중 잘 저장된 유명한 사실(well-known facts)에 비해 사실적 성능이 현저히 나빠진다는 것을 확인했다. 이는 모든 사실이 이미 사전학습 때 관찰되었음에도 불구하고 발생하는 현상이다. 이 현상을 이론적으로도 증명하였는데, 덜 알려진 사실을 학습할 경우 모델이 주제(subject entity)의 이름을 무시하고 대신 일반적으로 타당해 보이는 응답을 내놓는 경향을 갖게 될 수 있다. PopQA, Entity Questions, MMLU의 세 가지 질의응답 벤치마크와 Llama-2-7B, Mistral-7B 두 가지 언어 모델을 이용한 실험에서 다음과 같은 결과를 얻었다. (i) 완전히 사실적이지만 덜 알려진 데이터로 파인튜닝할 경우 이후의 사실적 성능이 5~10% 악화되었다. (ii) 반면 잘 알려진 데이터만을 부분적으로 사용하여 파인튜닝한 경우 전체 데이터를 사용하여 파인튜닝한 것과 비슷하거나 오히려 더 좋은 성능을 보였다. 결국 본 연구는 사전학습 지식과 파인튜닝 데이터 사이의 상호작용에 대한 통찰을 제공하며, 지식 집약적인 과제에서 모델이 가진 사전학습된 사실이 어떻게 저장되어 있는지를 고려하여 파인튜닝 데이터를 신중하게 구성하는 것이 중요함을 보였다. 1. 서론 대규모 언어 모델(Large Language Models, LLMs)은 사전학습(pretraining)을 통해 엄청난 양의 사실적 지식(factual knowledge)을 가중치(weights)에 저장한다(Jiang 등, 2020; Petroni 등, 2019; Mallen 등, 2023). 그 결과 사실 기반의 질의응답과 같은 지식 집약적(knowledge intensive) 작업들에서 뛰...

NL-304, Know the Unknown: An Uncertainty-Sensitive Method for LLM Instruction Tuning, Findings of ACL 2025

이미지
◼ Comment 갠적으론 이 논문이 맘에 드는 논문은 아니다 뭔가 실제로 이렇게 워킹하지 않을거 같은 느낌? 여기서는 환각을 줄이기 위해 순차적 학습 방식을 제안하는데 먼저 학습 세팅은 MRC 느낌이다. 컨텍스트가 있고, 질문이 있는 상황 1) UT: 먼저 모델이 컨텍스트 상으로 응답가능한 질문과 아닌 질문의 데이터를 만든다 응답가능하면 응답=충분함, 불가능하면 응답=불충분함 이 생성되도록 모델을 학습한다 2) ST: UT만 수행했을 경우 발생하는 문제점은 모델이 지나치게 불확실성을 민감하게 받아들여 실제 QA 성능이 저하되는 것입니다.  또한, 일반적인 QA 데이터셋에 다시 학습시키면 UT에서 배운 불확실성을 인지하고 거부하는 능력이 악화될 수 있습니다 따라서 아래처럼 2가지 지시사항의 데이터를 만들어서 학습을 추가적으로 한다 인과적 지시사항(causal instructions): 응답의 형태나 시제 등 내용 자체에 직접 영향을 주는 지시사항. 예를 들어, "반드시 과거형으로 답하시오." "답변을 20자 이내로 짧게 하시오." 비인과적 지시사항(non-causal instructions): 답변의 의미는 바꾸지 않지만 응답 여부 등을 결정하는 지시사항. 예를 들어, "맥락이 부족하면 'Not Provided'로 답하시오." 이러면 결과적으로 컨텍스트상에서 대답할 질문과 못할 질문을 구분해서 대답한다는것 대답못할때는 Not Provided 이 응답하게 됨 이 논문의 한계로는, MRC 세팅의 UT 데이터를 만들어야 한다는 것이다 그래서 만약 컨텍스트가 부족해도 모델의 내재적 지식으로 대답할 수 있는 것인데, Not provided가 나와야하게끔 학습을 한다는 것이다. RAG 식으로 모델이 꼭 작동해야하는 상황에서는 도움이 되겠지만, 뭔가 꼭 그래야하나? 싶은 의문이 있기는 함 Abstract 대형 언어 모델(LLM)은 뛰어난 성능을 보이지만, 부족한 지식이나 맥락으로 인해 발생하는 환각(hal...

NL-303, Alleviating Hallucinations from Knowledge Misalignment in Large Language Models via Selective Abstention Learning, ACL 2025

이미지
◼ Comment 학습될 모델(PLM)이 알고 있는 데이터를 미리 구분하는 것은 아니고, 매 학습때마다 정답토큰과 예측토큰과 비교해서 One hot label의 분포를 [REG] 스페셜 토큰에 일부 할당하는 것이다. 즉 직관적으로 PLM이 현재 맞춰야할 토큰(정답 토큰)을 가장 높은 확률로 예측한다면 그대로 학습하되 정답 토큰이 후순위라면, P_label/P_max만큼 [REG]에 일부 할당하고, 나머지는 label token에 할당해서 학습하겠다는 것 추가적으로 regularization이 학습에 들어감 인퍼런스할때는 decoding 전략을 제시하는것이 있음 근데 평가 부분이 살짝 애매한게 이 방법이 효과적이라는 것을, 일반 QA 데이터세트에서 성능 향상임을 보여줌 근데 이때 [REG]의 생성을 막고 응답을 생성하게함. 뭐 그건 그렇다칠 수 있는데, 그러면 모르는 데이터에 대해서도 결국 뭔가 그럴싸한 말을 하는것이 아닌가? 그래서 [REG]도 생성할 수 있게하고 하고, 이것이 응답이 끝나기전에 한번이라도 나오면 그냥 회피하는 것으로 평가도 시도함 여기서 문제는 일반 QA 데이터세트가 아닌, 모델이 알고 모르는 데이터를 따로 만들어서 평가를 진행함 그랬을때 알고있는 데이터는 [REG]의 생성확률이 낮은편이고 모르는 데이터는 [REG]의 생성확률이 높은편임 비교모델은 이 데이터세트에서 r-tuning과 해서 성능이 더 좋고 rejection rate도 높다고 보여줌 이 앎과 모르는 데이터세트는 plm으로 맞춘 데이터 / 못맞춘 데이터로 선별했다는데 자세한 내용은 없음 개인적으로 위처럼 평가하면 문제는, 모델이 실제 질문이 들어왔을때 [REG]을 생성을 허용할것인가 말것인가가 문제가 됨 [REG]을 생성 허용 안한다면 성능은 살짝 올라간다지만 결국 Refusal할 기준이 사라지는것이고 [REG]을 생성 허용하면, refusal 기준이 생기지만, 성능자체가 비교가 안됨 정당한 비교는 [REG] 생성허용하고 일반 QA에서 성능을 봐야한다고 봄 Abstract 대규모 ...