NL-357, Second Guess: Detecting Uncertainty Through Abstention and Answer Stability in Small Language Models, Preprint 2026

◼ Comment

일단 여기서는 벤치마크를 새로 만든것은 아니고 기존 벤치마크에 IDK 추가해서 평가를 다르게 해본 것
원래 벤치마크에서의 예측과, 해당 벤치마크에 IDK 추가해서 예측과 다르면 모델이 모르는 질문이라고 판단

정확히는 모르는 질문이라기보단 불안정하다라는 의미긴함

여기서 평가지표는 Composite Risk = (Ni + Nca) / N × 100를 정의함

Ni = 최종적으로 틀린 답을 낸 개수
Nca = 원래 prompt에서는 맞았는데, Second Guess 때문에 abstain된 개수
N = 전체 문제 수

만약 100개의 문제가 있고 60개 정답 40개의 오답이라고 했을때 기존 Composite Risk (CR) = 40임

근데 IDK 추가해서 한번더 예측하게해서 위에서 말한 IDK 로직을 돌린다 했을때
60개 정답 => 52개 그대로 정답 8개 IDK 판단
40개 오답 => 15개 그대로 오답 25개 IDK 판단
그러면 바뀐 8개는 안좋은거, 바뀐 25개는 좋게 된거
CR = 15+8 = 23이 된 것

즉 이렇게 모델을 다르게 평가해봤다는 것
하지만 이래서 CR이 어떤 의미가 있냐는 모름

실제 이렇게 IDK을 판단하게 좋은 방법인지를 보여주지는 못함
내가 생각했을때는 기존 acc로 평가하면 모델의 순위가 있을텐데, 이를 CR로 바꿔서 평가하면 모델의 순위가 바뀐다고 해보자.
이 바뀐 순위가 실제 모델을 정성적으로 평가한 사람의 순위가 일치하면 주장이 일치되는 느낌

이 논문은 작은 언어모델(SLM)이 언제 틀릴 가능성이 높은지, 모델 내부 확률이나 학습 없이 prompt 두 번만으로 감지하자는 논문입니다.

논문 제목은 Second Guess: Detecting Uncertainty Through Abstention and Answer Stability in Small Language Models입니다. 핵심 문제는 SLM이 모를 때도 자신 있게 틀린 답을 고르는 현상입니다. 저자들은 특히 10B 이하 모델이 edge/mobile 환경에서 쓰일 때, 틀린 답보다 “모르겠다”라고 abstain하는 능력이 중요하다고 봅니다. (arXiv)

핵심 아이디어

방법은 매우 단순합니다.

원래 MCQA 문제가 있다고 하자.

Q: ...
A. ...
B. ...
C. ...
D. ...

먼저 모델에게 이 상태로 답하게 합니다. 이 답을 R1이라고 합니다.

그다음 같은 문제에 “I don’t know” 선택지를 하나 추가해서 다시 묻습니다.

Q: ...
A. ...
B. ...
C. ...
D. ...
E. I don't know

이때 나온 답을 R2라고 합니다.

최종 규칙은 다음입니다.

R1 == R2 이면:
    원래 답 R1을 유지

R1 != R2 이면:
    모델이 불안정하다고 보고 "I don't know"로 처리

즉, 모델이 진짜로 알고 있다면 선택지가 하나 추가되어도 같은 답을 고를 것이고, 모르면 선택지가 바뀌었을 때 답이 흔들릴 것이라는 가정입니다. 논문 Figure 1도 이 과정을 보여줍니다.

중요한 점

여기서 흥미로운 부분은 모델이 실제로 “I don’t know”를 직접 선택해야만 abstention으로 보는 게 아니라는 점입니다.

예를 들어 원래는 B를 골랐는데, “I don’t know”를 추가하니 D를 골랐다면, 최종 출력은 D가 아니라 abstention입니다.

즉 이 방법은 “모델이 모른다고 말하는 능력”을 믿는 게 아니라, 답이 바뀌는 불안정성을 uncertainty signal로 사용합니다.

실험 설정

저자들은 2B~8B 규모의 instruction-tuned 모델 네 개를 평가합니다. 사용한 모델은 Mistral-7B-Instruct, Llama-3.1-8B-Instruct, Granite-3.3-2B-Instruct, Qwen3-4B-Instruct입니다. 데이터셋은 CommonsenseQA, QASC, MMLU-Pro, SuperGPQA 네 개이고, 각 모델-데이터셋 조합마다 100개 문제를 샘플링합니다. (arXiv)

비교 방법은 대략 네 가지입니다.

첫째, 원래 prompt만 쓰는 방법.
둘째, 처음부터 “I don’t know” 선택지를 넣는 방법.
셋째, self-evaluation 방식으로 모델에게 자기 답이 맞는지 다시 판단하게 하는 방법.
넷째, entropy가 높은 답을 불확실하다고 보는 방법입니다. (arXiv)

결과

가장 큰 결과는 Second Guess가 composite risk를 가장 많이 줄였다는 것입니다.

평균 결과를 보면 Original prompt의 composite risk는 40.25였고, Second Guess는 29.44로 내려갑니다. 논문은 이를 10.81% 개선으로 보고합니다. Precision도 59.75에서 68.40으로 올라가고, error rate도 40.25에서 20.12로 크게 줄어듭니다.

다만 여기서 주의할 점은 error rate가 줄어드는 것은 많은 틀린 답을 abstention으로 바꿨기 때문입니다. 따라서 단순 accuracy 향상이라기보다는, 틀릴 것 같은 경우를 걸러내는 selective prediction 성능 향상에 가깝습니다.

왜 효과가 있었나?

논문의 중요한 분석은, 모델들이 “I don’t know”를 많이 직접 고른 것이 아니라는 점입니다.

저자들은 대부분의 개선이 “I don’t know” 선택 자체가 아니라, 선택지 추가 후 다른 오답으로 switching하는 현상에서 나왔다고 말합니다. 예를 들어 Qwen이 MMLU-Pro에서 원래 틀린 답을 낸 경우, “I don’t know”로 바꾼 경우는 2개뿐이지만, 다른 선택지로 바꾼 경우는 21개였다고 합니다. 즉 모델이 명시적으로 모른다고 말하지 않아도, 답이 흔들리는 현상이 불확실성 신호가 됩니다. (arXiv)

어떤 모델에서 특히 잘 먹히나?

Second Guess는 base accuracy가 낮은 모델/데이터셋 조합에서 더 큰 효과를 보입니다. Figure 2에서는 base accuracy가 높을수록 composite risk reduction이 작아지는 음의 상관관계를 보입니다. 예를 들어 Llama가 SuperGPQA에서 base accuracy가 약 32%일 때는 25% 이상의 composite risk reduction을 보였지만, Qwen이 CommonsenseQA에서 약 85%를 맞히는 경우에는 거의 개선이 없었습니다.

쉽게 말하면, 이 방법은 이미 잘 맞히는 쉬운 문제보다 모델이 자주 틀리는 어려운 문제에서 더 유용합니다.

장점

가장 큰 장점은 매우 단순하다는 것입니다. 학습이 필요 없고, 모델 weight 접근도 필요 없고, logit이나 entropy 같은 내부 정보도 없어도 됩니다. 그냥 같은 문제를 두 번 물어보면 됩니다. 그래서 black-box 모델에도 적용 가능합니다. (arXiv)

또 하나의 장점은 entropy 기반 방법보다 fine-tuned 모델에서도 비교적 잘 작동했다는 점입니다. 논문에 따르면 fine-tuning 이후에는 모델의 confidence가 올라가 entropy가 uncertainty를 잘 반영하지 못할 수 있는데, Second Guess는 여전히 composite risk를 약 8% 개선했다고 보고합니다. (arXiv)

한계

첫째, 이 방법은 MCQA에 특화되어 있습니다. 선택지를 추가하고 답이 바뀌는지 보는 방식이기 때문에 open-ended generation이나 long-form QA에 그대로 적용하기는 어렵습니다.

둘째, 두 번 inference해야 하므로 비용이 원래보다 약 2배입니다. 논문은 sampling-based consistency 방법보다 싸다고 주장하지만, 그래도 single-pass보다 비싼 것은 맞습니다.

셋째, 성능 좋은 frontier model에서는 효과가 줄어들 수 있습니다. 논문도 base performance가 높을수록 gain이 작아진다고 보고하며, frontier-scale 모델에서 얼마나 유용할지는 열린 문제라고 말합니다.

넷째, CoT를 사용하지 않은 평가입니다. 저자들도 CoT가 현대 LLM 성능을 끌어내는 표준적 방법이 되었기 때문에, 향후 CoT prompt와 Second Guess가 어떻게 상호작용하는지 봐야 한다고 말합니다.

한 줄 요약

이 논문은 “I don’t know”를 직접 잘 말하게 만드는 방법이라기보다, “I don’t know” 선택지를 추가했을 때 답이 흔들리는지를 보고 모델의 불확실성을 감지하는 간단한 abstention 방법을 제안한 논문입니다.

개인적으로는 아이디어는 단순하지만 꽤 직관적입니다. 다만 novelty는 “새로운 학습법”보다는 MCQA에서 쓸 수 있는 lightweight behavioral uncertainty heuristic에 가깝고, open-ended generation이나 CoT 환경까지 확장 가능한지는 추가 검증이 필요해 보입니다.

맞아요. 네가 이해한 방향이 거의 맞습니다. 다만 논문에서 말하는 IDK 비율과 composite risk 감소는 조금 구분해야 합니다.

1. 이 논문에서 한 분석

각 문제에 대해 두 번 물어봅니다.

1차 prompt:
A/B/C/D 중 답해라
→ R1

2차 prompt:
A/B/C/D/IDK 중 답해라
→ R2

그다음 논문 방법은:

R1 = R2  → 그대로 답변 유지
R1 ≠ R2  → abstention, 즉 IDK 처리

중요한 점은 R2가 실제로 IDK를 골랐는지는 중요하지 않습니다.
논문은 답이 바뀌기만 하면 최종적으로 IDK로 처리합니다. 저자들은 이를 “answer instability = uncertainty signal”로 봅니다. (arXiv)

예를 들어:

R1 = B
R2 = B
→ 최종 답: B

R1 = B
R2 = IDK
→ 최종 답: IDK

R1 = B
R2 = D
→ 최종 답: IDK

세 번째 경우가 핵심입니다. 모델이 직접 “모르겠다”고 한 것은 아니지만, 선택지가 하나 추가되자 답이 흔들렸으므로 불확실하다고 간주합니다.

2. 그러면 IDK 비율은 뭘 의미하나?

여기서 말할 수 있는 IDK 비율은 두 종류가 있습니다.

첫째는 모델이 2차 prompt에서 실제로 IDK 선택지를 고른 비율입니다.

R2 = IDK인 비율

이건 “모델이 명시적으로 모르겠다고 말한 비율”입니다. 그런데 논문에서는 이 비율이 별로 높지 않았다고 합니다. 오히려 모델은 IDK를 고르기보다, 기존 오답에서 다른 오답으로 바꾸는 경우가 많았습니다. 예를 들어 Qwen on MMLU-Pro에서 원래 틀린 답 중 IDK로 바뀐 것은 2개뿐이고, 다른 선택지로 바뀐 것은 21개였다고 합니다. (arXiv)

둘째는 Second Guess가 최종적으로 abstention 처리한 비율입니다.

R1 ≠ R2인 비율

이게 방법론상 더 중요한 IDK 비율입니다.
즉 최종 IDK 비율은 “모델이 직접 IDK를 골랐는가”가 아니라, IDK 선택지를 넣었을 때 답이 얼마나 흔들렸는가를 의미합니다.

그래서 이 논문의 분석 포인트는:

모델이 모르면 IDK를 직접 잘 고른다

가 아니라,

모델이 불확실하면 선택지 변화에 민감해서 답이 흔들린다

입니다.

3. composite risk는 어떻게 줄어드나?

논문에서 composite risk는 다음입니다.

Composite Risk = (Ni + Nca) / N × 100

여기서:

Ni  = 최종적으로 틀린 답을 낸 개수
Nca = 원래 prompt에서는 맞았는데, Second Guess 때문에 abstain된 개수
N   = 전체 문제 수

즉 composite risk는 단순 오답률이 아닙니다.
오답으로 남은 것 + 맞힐 수 있었는데 abstain한 것을 같이 벌점으로 봅니다. (arXiv)

Original prompt에서는 abstention이 없으므로:

Composite Risk = Ni / N

즉 원래는 그냥 틀린 비율과 같습니다.

그런데 Second Guess를 적용하면:

Composite Risk = 최종 오답률 + 잘못된 abstention penalty

가 됩니다.

4. 그런데 penalty를 더했는데 왜 줄어들지?

핵심은 오답 감소량이 penalty 증가량보다 크면 composite risk가 줄어든다는 것입니다.

예를 들어 100문제가 있다고 해보겠습니다.

Original

맞음: 60
틀림: 40
abstain: 0

Composite Risk = 40 / 100 = 40

Second Guess 적용 후

원래 틀렸던 40개 중 25개가 답이 흔들려서 IDK 처리됨.
원래 맞았던 60개 중 8개도 답이 흔들려서 IDK 처리됨.

그러면:

최종 맞음: 52
최종 틀림: 15
최종 IDK: 33

여기서 composite risk는:

Ni = 15
Nca = 8

Composite Risk = (15 + 8) / 100 = 23

즉 IDK가 33개나 생겼지만, 그중 25개는 원래 틀릴 답을 막은 것이므로 좋은 abstention입니다.
벌점은 원래 맞았는데 IDK 처리된 8개에만 들어갑니다.

그래서:

오답 감소: 40 → 15  = 25개 개선
잘못된 abstention: 0 → 8 = 8개 손해

순개선 = 25 - 8 = 17
Composite Risk = 40 → 23

이런 식으로 줄어드는 것입니다.

5. 논문 결과를 이 관점에서 보면

논문 평균 결과는 대략 이렇습니다.

Original:
Error Rate = 40.25
Composite Risk = 40.25

Second Guess:
Error Rate = 20.12
Composite Risk = 29.44

즉 Second Guess는 오답률을 약 20.12포인트 줄였습니다. 하지만 맞힐 수 있었던 문제도 일부 abstain했기 때문에 composite risk는 20.12까지 내려가지는 않고, 29.44가 됩니다. 그래도 원래 40.25보다는 낮습니다. (arXiv)

다르게 말하면:

오답을 많이 IDK로 바꿨다  → 이득
맞는 답도 일부 IDK로 바꿨다 → 손해
이득이 손해보다 커서 composite risk가 감소했다

6. 이 논문의 분석 결론

논문이 보인 것은 크게 세 가지입니다.

첫째, IDK 선택지를 추가하면 모델 답이 흔들리는 경우가 있고, 그 흔들림은 주로 원래 틀렸던 문제에서 많이 발생한다.

둘째, 모델이 직접 IDK를 고르지 않아도, 다른 선택지로 switching하는 것 자체가 uncertainty signal로 쓸 수 있다.

셋째, Second Guess는 오답을 abstention으로 많이 바꾸지만, 맞는 답을 abstention으로 바꾸는 손해는 상대적으로 작아서 composite risk가 줄어든다.

그래서 네 말대로 정리하면 거의 이겁니다.

Original composite risk = 그냥 틀린 비율

Second Guess composite risk
= 최종적으로 여전히 틀린 비율
+ 원래 맞았는데 IDK 처리해버린 비율

이 값이 original error rate보다 낮으면
Second Guess가 유용한 abstention을 한 것

즉 이 논문은 “IDK를 많이 만든다”가 아니라, 틀릴 문제를 더 많이 IDK로 보내고, 맞힐 문제는 비교적 유지한다는 것을 보인 논문입니다.

Reference

https://arxiv.org/pdf/2605.25394

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information