NL-277, CAD: Trusting Your Evidence: Hallucinate Less with Context-aware Decoding, NAACL 2024
◼ Comment
- 방법은 상당히 직관적이고 간단하다
- 컨텍스트를 포함했을때랑 안했을때 logit 차이를 이용해서 토큰을 고른다
- 그렇게해서 모델이 컨텍스트를 더 고려하도록 설정하는 것이고
- 이는 모델이 갖고 있던 내재 지식과 컨텍스트가 주는 지식이 상충될때, 컨텍스트를 더욱 따르라는 의미가 될 수 있다
- RAG처럼 최신 정보를 따라야하는 경우 효과적일 수 있다
- 여기서 근데 말하는 것중 하나가, 컨텍스트에 어긋나는 환각을 생성하는 경우 이로인해 효과를 볼 수 있다고 하는데
- 이에 대한 실험이 요약 테스크에서 잘 요약되나를 보는 정도이다
- 좀 더 광범위한 실험이 있었으면 좋았을거 같다
- 사용하는 백본도 먼가 최신 트렌드랑은 어긋나는게 아쉽고
- instruction model이아닌 pretraining 모델을 사용한거 같음
- 개인적으로 느낀 문제는
- one-turn 형태의 테스크에서는 컨테스트가 고정되어 있고, 그렇기 때문에 컨텍스트를 줬다 안줬다 실험할 수 있었다
- 하지만, 대화형식 테스크로 간주해보면 어디까지가 컨텍스트로 볼 것인가? 새로 생성된 문장은 컨텍스트로 보지 않을 것인가? 이런 개념으로 봤을때 애매하다
- 즉 multi-turn 테스크에서는 적용하기 어려울거 같기도하고
- 컨텍스트가 엄청 긴 상황이라면 이를 모두 생략하는것은 옳지 않을거 같다. 즉 선택적으로 일부분만 안쓰는게 맞을거 같긴한데..
Abstract
언어 모델(LM)은 입력 문맥(context)에 충분히 주의를 기울이지 못하고, 문맥과 어긋나거나 환각(hallucination)을 포함한 텍스트를 생성하는 경우가 많다.
이를 완화하기 위해 본 연구에서는 문맥 인식 디코딩(Context-Aware Decoding, CAD)을 제안한다.
- CAD는 문맥이 있을 때와 없을 때 모델의 출력 확률 차이를 극대화하는 대조적(contrastive) 분포를 따라 디코딩하는 방식이다.
실험 결과, 추가적인 훈련 없이도 OPT, GPT, LLaMA, FLAN-T5 등 다양한 LM 계열에서 요약 작업 시 문맥 충실도를 크게 개선하였다(LLaMA의 경우 사실성 지표가 14.3% 향상됨). 또한, CAD는 제공된 문맥과 모델의 사전지식(prior knowledge)이 충돌할 때 문맥을 우선시하도록 하는 데 특히 효과적이며, 지식 충돌 해결이 중요한 작업에서 상당한 성능 향상을 보였다. 코드 링크는 다음과 같다: https://github.com/xhan77/context-aware-decoding.
1 Introduction
언어 모델(Language Model, LM)은 프롬프트나 문서의 앞부분에 이어지는 유창한 텍스트를 효과적으로 생성한다. 생성 과정에서 LM은 크게 두 가지 지식에 의존한다.
- (1) **사전 지식(prior knowledge)**은 사전학습(pretraining) 단계에서 모델의 파라미터 내에 암묵적으로 저장된 지식이며,
- (2) **문맥 지식(context knowledge)**은 입력으로 주어진 문맥(prefix)에서 전달되는 지식이다(Chan et al., 2022).
하지만, 사전학습만 수행한 일반 LM(vanilla LM)이 이러한 두 가지 지식원을 어떻게 균형있게 활용하는지는 여전히 미해결 문제로 남아 있다.
기존 연구에 따르면 LM은 문맥에 새롭게 제시된 정보를 충분히 반영하지 못하는 경우가 있다. 이는 특히 요약(summarization) 작업에서 입력 문서에 없는 사실을 포함하는 **환각(hallucination)**을 유발할 수 있다(Maynez et al., 2020; Pagnoni et al., 2021).
- 특히, 문맥 지식이 모델이 보유한 사전 지식과 충돌할 때 문맥에 대한 불충분한 집중은 심각한 문제를 야기한다(Longpre et al., 2021; Zhou et al., 2023).
- 예를 들어, 최신 문서에 “아르헨티나가 FIFA 월드컵에서 1978년, 1986년, 2022년에 우승했다”는 정보가 주어졌을 때, LLaMA 모델(Touvron et al., 2023)은 훈련 데이터가 오래되어 있음에도 불구하고 문맥을 무시하고 “아르헨티나가 몇 번 월드컵에서 우승했는가?”라는 질문에 “두 번”이라는 잘못된 응답을 생성하기도 한다(Figure 1 참조).
본 연구에서는 이러한 문제를 해결하기 위해 **문맥 인식 디코딩(Context-Aware Decoding, CAD)**이라는 간단한 방법을 제안한다.
- CAD는 문맥이 있을 때와 없을 때 모델이 생성하는 출력 확률의 차이를 확대하여 새로운 출력 분포를 구성하고 여기서 텍스트를 샘플링한다.
- 이 방식은 더 적절한 문맥 정보가 주어질 때, 모델이 기존의 사전 지식보다 문맥을 더욱 강력하게 반영하도록 하는 일종의 **대조적 디코딩(contrastive decoding)**이다(Li et al., 2023). CAD는 별도의 추가 학습 없이 기존의 사전학습된 LM에 직접 적용 가능하다.
- 컨텍스트의 유무에 따른 두가지 로짓이 있을텐데, 이 두 출력 확률의 차이를 확대하여 새로운 출력분포를 만들겠다!!
요약 작업에서 수행한 실험 결과, CAD는 OPT(Zhang et al., 2022), GPT-Neo(Black et al., 2021), LLaMA(Touvron et al., 2023)와 같은 일반적인 LM뿐 아니라, FLAN(Chung et al., 2022)과 같이 instruction으로 미세조정된 LM에서도 생성된 텍스트의 문맥 충실성을 크게 향상시키는 것으로 나타났다.
특히 CNN-DM 데이터셋에서 LLaMA-30B 모델에 적용했을 때 ROUGE-L 점수가 21% 증가하였으며, 사실성 평가 지표에서도 14.3%의 실질적인 성능 향상을 보였다.
- 더욱 주목할 만한 점은, CAD가 사전 지식과 문맥 정보가 충돌하는 지식 충돌(knowledge conflict) QA 과제에서 특히 효과적이었다는 것이다.
- 해당 과제에서 LLaMA-30B 모델에 CAD를 적용했을 때 성능이 2.9배 향상되었으며, 이러한 성능 개선 폭은 모델의 크기가 증가할수록 더 커졌다.
- 이러한 결과는 CAD가 텍스트 생성 과정에서의 환각 현상을 완화하고, 모델이 기존의 사전 지식보다 더 신뢰할 수 있는 문맥 정보를 우선시하도록 하는 데 큰 잠재력을 가지고 있음을 시사한다.
근데 one-turn으로 생성하는게 아니라 지속적으로 문장을 생성하려면 매번 컨텍스트가 늘어나게 될텐데.. 어디까지 컨텍스트를 고려안하는지에 따라 다양한 방법이 있겠는데
- 맨처음 주어진 컨텍스트만 with without을 하는건가? 실험은 그렇게 할거 같은데
2 방법
2.1 배경
언어 모델(LM) $\theta$가 입력 질의(query) $x$와 문맥(context) $c$를 받아 응답(response) $y$를 생성한다고 할 때, 이 문맥 $c$는 모델이 가진 사전 지식(prior knowledge)과 상충하거나 모델이 알지 못하는 외부 지식을 포함할 수 있다.
이때 모델 $\theta$는 질의와 문맥을 기반으로 응답을 조건부 확률분포로부터 생성하게 된다.
하지만 문맥 $c$가 모델 $\theta$의 분포를 벗어난(out-of-distribution) 지식을 포함하는 경우, 모델이 문맥에 충분히 집중하지 못하고 오히려 사전 지식에 지나치게 의존할 수 있다.
예를 들어, 문맥이 "아르헨티나는 FIFA 월드컵에서 1978년, 1986년, 2022년에 우승했다"고 주어진 경우에도, LM은 과거 훈련된 데이터로부터 "아르헨티나는 두 번 우승했다"는 오래된 사전 지식을 갖고 있어, 질의가 주어졌을 때 여전히 잘못된 답인 "두 번"을 예측할 수 있다.
- 즉 컨텍스트로 주어진 정보랑 LLM 학습 데이터에 포함된 오래된 지식이 상충할 경우, 대답이 잘못나갈 수 있다는 것
2.2 문맥 인식 디코딩(Context-aware Decoding)
이러한 문제를 완화하기 위해, 모델의 원래 출력 분포에서 사전 지식을 대조적(contrastive)으로 제거하여 문맥에 더욱 주의를 기울이게 한다.
- 이를 위해, 사전 지식을 문맥이 없는 조건부 분포 $p_\theta(y_t \mid x, y_{<t})$로 모델링하고,
- 이를 기반으로 문맥과 출력 간의 점별 상호정보량(pointwise mutual information, PMI)을 이용해 모델의 원래 출력 분포를 조정한다.
- 컨텍스트를 포함안한것은 사전지식 (즉 llm 학습된 지식)으로만 유추한 것으로 볼 수 있다는 것
위 식에서 출력 확률은 원래 확률분포와 PMI의 가중치 조합(product-of-experts)으로 구성되며, 가중치는 $\alpha$로 조정된다.
- 직관적으로, 문맥이 있을 때 현저히 더 가능성이 높아지는 출력을 우선적으로 생성하게 된다.
- PMI(Pointwise Mutual Information)는 두 사건이 함께 발생할 확률이 독립적으로 발생할 확률에 비해 얼마나 더 큰지 나타내는 정보이론적 지표입니다.
- PMI(A,B)=log P(A,B)/(P(A)P(B)) 형태로 A,B가 독립이면 PMI=0이 된다
- 여기서 대응되는것은 A가 next token을 생성하는것이라 하면, B는 context 가 제공되는것이 되고
- A,B는 context가 제공되면서 next token이 생성되는 것이라 볼 수 있을것 같다
- P(c)는 그냥 무시하면 위 식에서 alpha로 조정되는 가중치가 PMI가 되는 것
- 위식에다 log취하면 logp(y|c,x,y) = logp(y|c,x,y) + alpha*logp(y|c,x,y) - alpha*logp(y|x,y)
- log p(y) = log(softmax(logit(y))) = log (exp(logit(y))/Z) = logit(y) - log(Z)
- 따라서 아래처럼 softmax안의 식이 유도되는 것이다
- logit(y) = (1+alpha) logit(y|c,x,y) - alpha*logit(y|x,y)
- 이를 softmax시켜서 y를 샘플링한다고 이해하면 될 듯
그러나 이 식은 유효한 확률분포가 아니기 때문에, 가능한 모든 $y_t$ 값에 대해 정규화(normalization)가 필요하다.
식을 재배열하면 최종적으로 다음과 같은 형태로 나타낼 수 있다.
- 이때 $\alpha$ 값이 클수록 문맥을 고려한 보정(adjustment)에 더 큰 비중을 두게 되며, $\alpha = 0$일 때는 기존의 일반 디코딩과 동일해진다.
- 이 간단한 방법을 **문맥 인식 디코딩(CAD)**이라 부른다.
- 보정된 출력 분포 $\tilde{p}$에서 다양한 샘플링 전략(예: nucleus 샘플링, Holtzman et al., 2020)을 적용할 수 있다.
본질적으로 CAD는 문맥이 있는 조건부 확률 분포($p_\theta(y_t \mid c, x, y_{<t})$)와 문맥이 없는 조건부 확률 분포($p_\theta(y_t \mid x, y_{<t})$)의 로짓(logit) 사이에서 이뤄지는 대조적 앙상블(contrastive ensemble)로 이해할 수 있다.
- 유사한 대조적 목표(contrastive objective)는 이미지 생성 분야에서도 널리 쓰이는데, 대표적으로 classifier-free diffusion 모델(Ho and Salimans, 2022)은 이미지 제어를 위해 $(1+\alpha)\varepsilon_\theta(x, c)-\alpha\varepsilon_\theta(x)$ 형태를 사용한다.
- 텍스트 생성 분야에서는 Malkin et al. (2022)이 전체 입력과 짧은 입력 간의 대조를 통해 일관성(coherence)을 높이는 방법을 제안했다.
- 본 연구에서는 하나의 모델($\theta$)을 사용했지만, 서로 다른 모델을 사용하여 원치 않는 모델의 행동을 억제하거나 전문가 모델의 역량을 증류(distill)하는 방식으로도 확장될 수 있다(Liu et al., 2021; Li et al., 2023).
3 실험 환경
본 논문에서는 언어 모델(LM)이 주어진 문맥(context)을 읽고, 문맥에 충실한(faithful) 출력을 생성할 수 있는지를 평가하는 과제를 중심으로 실험을 수행한다. 기존 연구(Zhang et al., 2024; Zhou et al., 2023)의 방식을 따라, 프롬프팅(prompting)을 통해 모델 평가를 진행하였다.
3.1 데이터셋 및 평가 지표
요약(Summarization)
요약 과제는 CNN-DM(See et al., 2017)과 XSUM(Narayan et al., 2018) 데이터셋에서 수행한다. 요약 품질은 ROUGE-L(Lin, 2004) 지표로 평가한다. 요약의 사실적 일관성(factual consistency)을 측정하기 위해 최신의 사실성 평가 지표인 BERT-Precision(Pagnoni et al., 2021)과 FactKB(Feng et al., 2023)를 사용한다. 이 두 지표는 기존의 FACTCC(Kryscinski et al., 2020), SUMMAC(Laban et al., 2022) 등과 비교하여 사람 평가와의 높은 상관성을 보이는 것으로 입증된 바 있다.
지식 충돌(Knowledge Conflicts)
지식 충돌이 존재하는 두 가지 데이터셋을 사용하여 평가를 진행한다: MemoTrap(Liu and Liu, 2023)과 NQ-Swap(Longpre et al., 2021).
-
MemoTrap은 언어 모델이 암기된 지식(memorization)에 얼마나 쉽게 빠지는지 평가하기 위한 데이터셋이다. 이 데이터셋은 유명한 속담이나 격언의 끝 단어를 일반적으로 쓰이는 단어가 아닌 다른 단어로 바꾸어 완성하도록 지시하는 프롬프트로 구성된다. 예를 들어, “Better late than (늦더라도 ~보다는 낫다)”라는 잘 알려진 격언을 “early”라는 잘 쓰이지 않는 단어로 끝내도록 유도한다.
-
NQ-Swap은 자연질문 데이터셋(Natural Questions, NQ; Kwiatkowski et al., 2019)을 기반으로 만들어졌다. 원래 NQ 데이터셋은 특정 문서를 참조하여 질문에 대한 답을 찾는 것을 목표로 한다. NQ-Swap 데이터셋을 만들기 위해, 원래 질문에서 특정한 정답(주로 개체명)을 문서 내에서 임의의 다른 개체로 교체한 뒤, 변경된 문서에서 해당 개체가 정답으로 나와야 한다. 문맥에 충실한 LM이라면 변경된 문서에서 바뀐 개체명을 답으로 생성해야 한다. 비교를 위해 원본 NQ 데이터셋(질문과 원본 문서)을 함께 평가에 사용한다. 평가 지표로는 NQ-Swap, NQ, MemoTrap 모두에서 정확 일치율(Exact Match, EM)을 사용한다.
- MemoTrap은 속담관련? 데이터인거 같고, NQ-Swap은 객체명 변경을 통해 기존데이터를 변경했다고 함
- 모델에게 원하는 대답은 컨텍스트를 잘 따르는 것이라 보면 됨 (MemoTrap에선 생성하라는 토큰을 생성했는지, NQ-Swap은 문맥내 엔티티를 선택했는지)
Table 1에서는 모델이 중점을 두고 주목해야 할 문맥(context)과 질문(query)의 예시들을 데이터셋별로 보여준다. XSUM과 NQ-Swap의 경우, 원본 문서에 더 많은 주의를 기울이는 것이 바람직하다.
- XSUM, MemoTrap에서는 c가 없으면 뭘 생성하라는거지?
- 그냥 아무거나 생성해서 적용하는건가?
- 실험을 context을 다 없애지 말고 일부만 없애서 하는건 안되려나?
반면 MemoTrap의 경우 모델이 주어진 지시사항(instruction)에 집중하기를 기대한다.
3.2 사용한 모델과 베이스라인(Baselines)
본 논문에서는 CAD(Context-Aware Decoding) 방식을 다양한 사전학습 언어모델에 적용했다:
- OPT(Zhang et al., 2022), GPT-Neo(Black et al., 2021), LLaMA(Touvron et al., 2023), 그리고 지시 기반 미세조정(instruction-finetuned)을 거친 FLAN-T5(Chung et al., 2022)를 사용하였다.
CAD는 조정 정도를 제어하기 위한 하이퍼파라미터 를 도입한다. 본 논문의 실험에서는, 요약 데이터셋(CNN-DM, XSUM)에 대해서는 모든 모델에 일괄적으로 값을 설정하였다. 지식 충돌 데이터셋(MemoTrap, NQ-Swap)에 대해서는 모델이 기존 사전지식(prior knowledge)의 영향을 더욱 강하게 제거할 필요가 있으므로, 로 설정하였다. 다양한 환경에서 가 전반적으로 좋은 결과를 보였지만, 지식 충돌 환경에서는 이보다 조금 더 높은 값이 더욱 효과적이었다. 의 값이 성능에 미치는 영향에 대해서는 섹션 5에서 더 상세히 분석하였다.
베이스라인으로는 기존 연구(Longpre et al., 2021; Kwiatkowski et al., 2019)에서 사용하는 일반적인 디코딩 방법을 적용하였다.
-
지식 충돌 과제에서는 greedy decoding(탐욕적 디코딩)을 사용하였다.
-
요약 과제에서는 top-p 샘플링(p=0.9, nucleus sampling)을 사용하였다(Holtzman et al., 2020).
왜 요약에서는 greedy 안했지?
CAD를 적용한 경우에도 수정된 확률분포 위에서 같은 샘플링 방식을 유지하였다.
4 실험 결과
요약(Summarization)
Table 2에 CNN-DM 및 XSUM 데이터셋의 실험 결과를 제시하였다.
두 데이터셋 모두에서, 총 8개의 모든 모델에 대해 문맥 인식 디코딩(CAD)이 일반적인 디코딩 방법보다 현저하게 우수한 성능을 보였다.
특히 CNN-DM 데이터셋에서 LLaMA-30B 모델에 CAD를 적용했을 때, ROUGE-L 점수는 21% 증가, FactKB 점수는 14.3% 증가, BERT-P 점수는 7.8% 증가하는 결과를 보였다.
이러한 결과는 CAD가 다양한 종류의 언어 모델이 생성하는 요약 텍스트의 품질과 사실성(factuality)을 효과적으로 향상시킬 수 있음을 나타낸다.
지식 충돌(Knowledge Conflicts)
지식 충돌 데이터셋(NQ-SWAP, MemoTrap) 및 원본 NQ 데이터셋에 대한 결과는 Table 3에 상세히 보고하였다.
CAD는 거의 모든 환경에서 기존의 일반 디코딩 방식보다 상당히 높은 성능을 보였으나, 충돌이 없는 일반 NQ 데이터셋에서 FLAN-T5 모델이 약간 성능이 감소하는 예외적인 현상이 관찰되었다.
그럼에도 불구하고 CAD는 지식 충돌이 있는 데이터셋에서 더 뛰어난 성능을 보였다. 예를 들어 GPT-Neo 20B 모델은 MemoTrap에서 54.4% 향상, NQ-SWAP에서는 128%의 향상을 보였다. 이와 같은 상당한 개선은 CAD가 특히 언어 모델이 사전 지식(prior knowledge)과 문맥 지식(context knowledge)이 충돌하는 상황에서 문맥에 보다 충실하게 응답하도록 돕는 데 매우 유용하다는 것을 시사한다.
즉 여기서 말하는것은 CAD 방식의 디코딩은 지식 충돌이 있을때 컨텍스트를 더 잘 따르도록 생성하게 된다는 것.
근데 컨텍스트를 잘 따르는게 환각완화와 직접적인 연관이 있는건 아니지 않나?
5 분석
모델 크기별 성능 향상 효과 분석
CAD는 다양한 규모의 언어 모델에 일관된 성능 향상을 가져온다.
Tables 2 및 3에서 제시한 결과는 OPT, GPT-Neo, LLaMA, FLAN-T5를 포함한 여러 종류의 LM에서 CAD가 성능 향상에 효과적임을 나타낸다. 추가적으로, 다양한 모델 크기에서도 CAD의 성능 향상 효과가 유효한지 조사하였다. 구체적으로, OPT 모델군을 대상으로 125M, 350M, 1.3B, 2.7B, 6.7B, 13B, 30B까지 다양한 크기의 모델에서 실험을 수행했다.
- OPT가 실험당시 다양한 사이즈가 있어서 활용한건가? LLaMA 변형을 쓰는게 뭔가 일반적일거 같은데..
그 결과 CNN-DM에서는 CAD가 모델 크기와 무관하게 일관된 성능 향상을 보였다. 그러나 MemoTrap 및 NQ-SWAP 데이터셋에서는 모델의 크기가 증가할수록 CAD의 성능 향상 폭도 증가하는 경향을 보였는데, 이는 대규모 LM일수록 문맥을 읽는 대신 사전 지식에 더 많이 의존하는 경향이 있어 CAD로부터 더 큰 이득을 볼 수 있기 때문이다.
- 큰 모델일수록 사전지식에 더 많이 의존하는 경향이 있어서 CAD 효과가 좋다.
- 완전히 우상향까지는 아닌듯
Figure 2에서도 같은 현상이 확인되었다.
조정 강도 α의 영향 분석
다음으로, 문맥 대비 조정의 강도를 나타내는 하이퍼파라미터 가 성능에 미치는 영향을 조사하였다 (작은 값일수록 CAD의 출력 분포가 원래의 다음 토큰 분포와 더 가까워짐). 다양한 값에 대해 실험을 수행하였으며, 그 결과는 Figure 3에 나타냈다.
세 가지 모든 데이터셋(CNN-DM, MemoTrap, NQ-SWAP)에서 일 때가 일반적인 디코딩 방식보다 가장 안정적이고 견고한 성능 향상을 제공한다는 점을 확인할 수 있었다.
6 관련 연구
요약의 사실성(Factuality)
요약(summarization) 모델들은 환각(hallucination) 현상을 보이는 경향이 있다(Maynez et al., 2020; Pagnoni et al., 2021). 이로 인해 생성된 요약이 사실적 일관성(factual consistency)을 유지하도록 하기 위한 연구가 활발히 이루어지고 있다. 예를 들어, 원본 문서에서 추출한 사실 트리플(fact triples)에 주의를 집중시키는 방법(Cao et al., 2018; Zhu et al., 2021), 요약 모델을 사실 일관성 평가 지표에 최적화하여 학습하는 방법(Nan et al., 2021; Cao and Wang, 2021), 사후 편집(post-editing)을 위한 오류 교정 모델을 학습하는 방법(Dong et al., 2020), 그리고 노이즈가 포함된 훈련 샘플을 제거하여 학습 데이터의 품질을 높이는 방법(Kang and Hashimoto, 2020; Goyal and Durrett, 2021) 등이 제안된 바 있다.
하지만 이러한 방식들은 별도의 추가적인 파인튜닝(fine-tuning)을 필요로 하기 때문에 제로샷(zero-shot)이나 퓨샷(few-shot) 프롬프팅(prompting) 방식에는 곧바로 적용하기 어렵다. King et al. (2022)과 Sridhar and Visser (2022)는 빔서치(beam search) 알고리즘에 제약을 가하는 방식을 제안하여 이러한 문제를 완화하고자 하였다.
지식 충돌(Knowledge Conflicts)
최신 정보가 포함된 문서(즉, 기존 사전 지식과 충돌하는 정보)가 주어졌을 때, 언어 모델은 오래된 파라메트릭(parametric) 사전 지식보다는 주어진 문맥(context)에 기반하여 응답을 생성해야 한다.
- 이 설정은 특히 검색-증강 언어 모델(retrieval-augmented language models) (Khandelwal et al., 2020; Shi et al., 2024; Min et al., 2023; Yasunaga et al., 2023)에 유용한데, 검색된 외부 문서들을 입력 문맥으로 활용하여 모델에 추가 지식을 제공하기 때문이다.
- RAG에 활용하기에 더 적합한 디코딩이긴한 듯?
하지만 단순히 문서를 추가한다고 해서 항상 모델의 예측이 바뀌지는 않는다.
- 현재의 많은 LM들이 제공된 문맥을 무시하고, 자신이 사전 학습한 파라메트릭 지식(prior parametric knowledge)에 과도하게 의존하기 때문이다(Longpre et al., 2021; Chen et al., 2022).
- 모델이 주어진 문맥에 충실하도록 향상시키기 위한 기존 접근법 중 하나로 프롬프팅 기반 방법(Zhou et al., 2023)이 제안된 바 있으나,
- 이러한 방식은 OpenAI의 text-davinci-003와 같은 대규모 지시 기반 파인튜닝 모델(instruction-finetuned LM)에만 적용 가능한 한계점이 존재한다.
반면 본 연구는 이 문제를 해결하기 위한 디코딩 전략(decoding strategy)을 제안하며, 이는 별도의 파인튜닝 없이 모든 종류의 언어 모델에 일반적으로 적용 가능하다는 점에서 차별성을 갖는다.
7 결론
언어 모델(Language Model, LM)은 입력된 문맥(context)보다는 자신이 가진 사전 지식(prior knowledge)에 더 많이 의존하는 경향이 있으며, 이로 인해 문맥과 불일치하는(unfaithful) 생성을 하는 문제가 발생한다. 본 논문에서는 이러한 문제를 해결하기 위해 **문맥 인식 디코딩(Context-Aware Decoding, CAD)**을 제안하였다. CAD는 간단한 추론 단계(inference-time) 방법으로, 모델의 사전 지식과 관련된 출력 확률을 상대적으로 낮추어, 모델이 주어진 문맥에 더 많이 집중하도록 유도한다.
본 연구에서는 문맥에 대한 강력한 주의(attention)가 필요한 두 가지 유형의 과제들에 대해 실험을 수행하였으며, 그 결과 CAD는 다양한 크기와 종류의 언어 모델들에 대해 문맥에 더욱 충실한 출력을 제공한다는 점을 입증하였다.
Reference
댓글
댓글 쓰기