The Generation-Format Penalty: Disentangling Model Knowledge from Output Format in Reasoning Benchmarks

Abstract

“정확 일치(exact-match)” 생성 방식으로 LLM의 추론 능력을 평가하는 것은 모델의 내부 지식과 특정 출력 형식을 따르는 능력을 혼동하게 만든다. 우리는 이를 분리하기 위한 세 가지 지표 보고 프로토콜을 제안한다: Wilson 95% 신뢰구간을 포함한 generation EM, closed-set task에서 모델이 대안들보다 정답 후보를 더 선호하는지를 측정하는 forced-choice EM, 그리고 teacher forcing 하에서의 gold-answer log-probability이다. Pythia 모델군의 25개 BoolQ cell과 25개 GSM8K cell을 분석한 결과, 단일 지표 보고는 answer space에 따라 서로 다른 두 가지 방식으로 실패한다는 것을 보인다. 실험은 70M부터 6.9B 파라미터까지의 Pythia 모델을 대상으로 하며, 각 모델은 다섯 개의 학습 checkpoint에서 평가된다.

BoolQ에서는 25개 모든 cell에서 forced-choice EM이 generation EM보다 높았으며, 그 차이는 +7에서 +66 percentage points 범위였다. 평균 차이는 +27.6 points였고, 순서가 뒤집힌 경우는 한 번도 없었다. 이 차이는 small model에서만 나타나는 현상이 아니다. 모델 크기와 학습 과정 전반에 걸쳐 지속된다. 가장 두드러진 사례는 Pythia-410M이다. 이 모델에서 forced-choice EM은 65–70%로 안정적으로 유지되는 반면, generation EM은 학습 중간에 40%로 정점을 찍은 뒤 최종 checkpoint에서는 27%까지 하락한다. 같은 weight, 같은 example에서 41-point의 불일치가 나타난다. 6.9B에서도 이 gap은 여전히 17 points로 남아 있다. 이러한 결과는 Schaeffer et al. (2023)을 지지하고 확장한다. 즉, rigid generation threshold는 더 단순한 scoring rule이 드러낼 수 있는 ordered, scale-dependent competence growth를 숨긴다.

GSM8K에서는 open numeric answer space 때문에 forced-choice scoring을 적용할 수 없다. 이 경우 generation EM은 전체 25-cell sweep에서 통계적으로 유의미한 정보를 제공하지 못한다. 모든 cell이 0.00%에서 2.33% 사이에 있으며 confidence interval이 서로 겹친다. 반면 log-probability는 학습 trajectory와 scale ordering을 명확하게 구분한다.

두 가지 failure mode와, answer space에 맞는 두 가지 해결책이 있다. 우리는 one-page evaluation card와 reference implementation을 공개한다. 이 구현은 모든 HuggingFace model에 대해 full report를 출력할 수 있다.

1 Introduction

자기회귀 언어 모델에 대한 reasoning benchmark 보고서는 거의 항상 model–benchmark 쌍마다 하나의 숫자를 보고한다. 이 숫자는 unconstrained generation에서의 exact-match accuracy이다. 이 관행은 단순하고, 해석하기 쉬우며, 논문들 사이에서 비교하기도 쉽다. 하지만 정보 손실이 크다. 모델은 정답을 요구된 표면 형식으로 출력하는 데 실패하더라도, 지정된 모든 대안보다 정답에 더 높은 확률을 부여할 수 있다. 반대로, 어려운 open-ended task에서는 모델이 정답 문자열에 더 많은 probability mass를 부여하게 되더라도, exact match는 계속 거의 0에 머무를 수 있다. 두 경우 모두 표준적인 단일 숫자는 과학적으로 중요한 구조를 숨긴다.

이 문제의식은 Schaeffer et al. [21]의 주장과 관련된다. Schaeffer et al.은 threshold metric이 매끄러운 성능 향상을 불연속적인 능력의 도약처럼 보이게 만들 수 있음을 보였다. 우리는 이 방법론적 문제의식을 두 가지 방식으로 확장한다. 첫째, benchmark 저자들이 직접 채택할 수 있는 reporting protocol로 구체화한다. 둘째, 통제된 scaling ladder에서 이 프로토콜을 평가한다. 구체적으로 Pythia 70M, 160M, 410M, 1B, 6.9B 모델을 각각 다섯 개 checkpoint에서 평가하고, closed-set task 하나와 open-set reasoning task 하나를 사용한다.

해당모델들이 리즈닝 모델들인가? 오픈 모델이 아니라 직접 학습한거 같은데?

이 pilot study는 threshold metric과 continuous metric의 차이라는 일반적 주장만으로 예측되는 것보다 더 강하고 구체적인 결과를 보여준다. BoolQ에서는 generation EM이 단순히 능력을 과소평가하는 정도가 아니라, 상당히 크고 일관적이며 training-dependent한 방식으로 능력을 과소평가한다. 우리가 평가한 25개의 model–checkpoint cell 전체에서 forced-choice EM은 generation EM보다 7에서 66 percentage points 더 높았으며, 평균 차이는 27.6 points였다. 이 gap은 small-model artifact가 아니다. Pythia-410M의 final checkpoint에서 가장 크게 나타났으며(+41 points), Pythia-6.9B의 final checkpoint에서도 +17 points로 남아 있다. 또한 100배 scale span 전반에서 이 gap이 단조롭게 줄어들지도 않는다. GSM8K에서는 open numeric answer space 때문에 forced-choice scoring을 적용할 수 없는데, 이 경우 generation EM은 모든 cell에서 정보를 거의 제공하지 못한다. 모든 cell이 0.00–2.33% 사이에 있으며 confidence interval이 서로 겹친다. 반면 log-probability는 training과 scale에 따른 향상을 모두 보여준다.

Contributions.
(1) LLM reasoning benchmark를 위한 세 가지 metric reporting protocol을 제안한다. 이 protocol은 Wilson 95% confidence interval을 포함한 generation EM, closed-set task를 위한 forced-choice EM, 그리고 bootstrap confidence interval을 포함한 teacher forcing 하의 gold-answer log-probability로 구성된다.
(2) 50개의 model–checkpoint cell에 대한 pilot study를 수행한다. 이는 5개의 Pythia 모델 크기 × 5개의 training checkpoint × 2개의 task로 구성된다. 이 실험은 두 가지 task-specific finding을 보여준다. BoolQ에서는 forced-choice gap이 보편적으로 나타난다. 평균 +27.6 points, 범위 +7에서 +66, 25개 cell 중 25개 모두에서 나타난다. GSM8K에서는 generation-EM floor가 보편적으로 나타난다. 모든 cell이 0.00에서 2.33% 사이이며 confidence interval이 서로 겹친다.
(3) generation EM과 forced-choice EM이 종종 서로 다른 training step에서 peak를 찍는다는 cross-checkpoint 관찰을 제시한다. Pythia-410M의 경우, forced-choice EM은 다섯 checkpoint 전체에서 거의 flat하지만, generation EM은 step 10000 이후 학습이 진행되면서 감소한다.
(4) 재사용 가능한 artifact를 제공한다. 하나의 page로 구성된 evaluation card와 open-source reference implementation을 제공하며, 이는 모든 HuggingFace-format model과 표준 reasoning benchmark에 대해 full report를 출력한다. 추가 inference cost는 매우 작으며, 표준 generation evaluation에 더해 example당 teacher-forced forward pass 한 번만 필요하다.

Scope.
우리는 이 효과가 instruction-tuned model, 실험한 6.9B보다 큰 frontier-scale model, 또는 본 논문에서 다룬 두 task 이외의 task에도 확장된다고 주장하지 않는다. 이 pilot study는 의도적으로 좁은 범위를 가진다. 방법론적 주장은 answer space가 허용하는 경우 generation-format compliance와 answer knowledge를 분리된 속성으로 보고해야 한다는 것이다.

여기까지만 봐도 일단 논문은 리젝감이 너무 많음...
여기서 평가하는 pythia는 중간 체크포인트가 공개된 pretrained LM임. 이거 가지고 평가해본건데, 애초에 이러한 pretrained LM은 few-shot loglikelihood로 평가하는게 일반적임
논문에서는 이 모델들을 생성후-EM parsing 하는 방법이 제대로 평가못한다고 말하지만, 애초에 그렇게 평가를 알 안함. 여기서 그래서 제안한 방법은 forced-choice EM이 사실 loglikelihood 재는 방법이고, 이미 lm-eval-harness에서 그렇게 평가가 되고 있음.

3 The reporting protocol 핵심

이 섹션에서 말하고 싶은 것은 간단히 말해, generation EM 하나만 보고하지 말고, 평가 결과를 세 가지 지표로 나눠서 보고하자는 것입니다.

기존 generation EM은 모델이 정답을 알고 있는지와, 그 정답을 원하는 형식으로 출력했는지를 함께 섞어서 봅니다. 그래서 논문은 이를 분리하기 위해 다음 세 가지를 요구합니다.

첫째, generation EM + Wilson confidence interval을 보고합니다.
즉 기존처럼 모델이 직접 생성한 답이 정답과 맞는지 보되, 표본 수가 작을 때 불확실성을 함께 보여주자는 것입니다.

둘째, gold-answer log-probability를 보고합니다.
정답 문자열을 강제로 넣었을 때 모델이 그 정답에 얼마나 높은 확률을 주는지 보는 지표입니다. 이는 closed-set, open-set task 모두에서 사용할 수 있습니다.

셋째, closed-set task에서는 forced-choice EM을 보고합니다.
답 후보가 Yes/No처럼 정해져 있으면, 모델이 자유 생성에서 무엇을 뱉었는지보다, 후보 중 정답에 더 높은 확률을 주는지를 봅니다.

추가로 논문은 decoupling score도 제안합니다.
generation EM과 보조 metric이 얼마나 다른 순위를 만드는지 Spearman correlation으로 보고, 둘이 많이 다르면 “단일 metric만 보고하면 해석이 위험하다”고 표시하자는 것입니다.

즉 3장의 핵심은:

모델 성능을 하나의 EM 점수로 압축하지 말고,
출력 형식 준수 능력, 정답 후보 선호 능력, 정답 문자열에 주는 확률을 분리해서 보고하자는 평가 보고 프로토콜이다.

다만 네가 지적한 것처럼, 이 metric들은 새롭다기보다 기존에 있던 log-likelihood / forced-choice / EM 평가를 “함께 보고하자”는 형식으로 정리한 것에 가깝습니다.

4 Pilot study 핵심

4장은 앞에서 제안한 three-metric reporting protocol을 실제로 한 번 적용해보는 실험 설정을 설명하는 부분입니다.

핵심은 다음입니다.

논문은 새 모델을 학습하지 않고, 공개된 Pythia pretrained LM checkpoint들을 가져와 평가합니다. 모델 크기는 70M, 160M, 410M, 1B, 6.9B이고, 각 모델을 1k, 10k, 44k, 90k, 143k training step에서 평가합니다. 즉, 모델 크기와 학습 진행 단계에 따라 metric들이 어떻게 다르게 보이는지 보려는 setup입니다.

task는 두 개입니다.

BoolQ는 yes/no closed-set task라서 generation EM, forced-choice EM, gold-answer LP를 모두 적용합니다.
GSM8K는 숫자 답을 생성하는 open-set task라서 forced-choice는 쓰지 않고, generation EM과 gold-answer LP를 비교합니다.

평가 방식은 zero-shot prompt에 가까운 형태입니다. BoolQ는 passage와 question을 주고 “Answer yes or no”라고 지시한 뒤 greedy decoding을 하고, GSM8K는 step-by-step solution을 생성하게 한 뒤 마지막 Final Answer: 숫자를 추출합니다.

이 섹션의 목적은 Pythia 성능을 정확히 benchmark하려는 것이라기보다, 작은 pilot으로 “generation EM 하나만 보면 해석이 왜곡될 수 있는지”를 보여주는 것입니다. 논문도 sample size가 BoolQ 100개, GSM8K 300개로 작고, definitive benchmark number가 아니라 protocol stress-test라고 설명합니다.

즉 4장의 핵심은:

공개된 Pythia pretrained checkpoint들을 여러 scale과 training step에서 BoolQ/GSM8K에 평가하여,
generation EM, forced-choice EM, gold-LP가 서로 다른 정보를 주는지 확인하는 pilot 실험을 구성했다.

비판적으로 보면, 여기서도 중요한 점은 Pythia가 instruction-tuned reasoning model이 아니라 pretrained base LM이라는 것입니다. 그래서 BoolQ를 generation parsing으로 평가하는 설정 자체가 다소 부자연스럽고, forced-choice가 더 높게 나오는 것은 어느 정도 예상 가능한 결과입니다.

5 Findings 핵심

5장은 이 논문의 실험 결과 요약입니다. 핵심은 task에 따라 generation EM 하나만 쓰면 실패하는 방식이 다르다는 것입니다.

5.1 BoolQ: forced-choice가 숨겨진 능력을 드러낸다

BoolQ에서는 25개 모든 model-checkpoint cell에서 forced-choice EM이 generation EM보다 높았습니다. 평균 차이는 +27.6 points, 범위는 +7에서 +66 points입니다.

논문이 강조하는 예시는 Pythia-410M입니다. 이 모델은 forced-choice EM이 전체 checkpoint에서 **65~70%**로 거의 유지됩니다. 반면 generation EM은 10k step에서 40%까지 올라갔다가 최종 checkpoint에서는 **27%**로 떨어집니다. 그런데 최종 checkpoint의 forced-choice EM은 **68%**입니다. 즉 같은 모델, 같은 데이터에서 평가 방식만 바꾸면 41점 차이가 납니다.

저자들이 말하고 싶은 것은, BoolQ 같은 closed-set task에서는 모델이 정답 후보를 구분할 능력이 있어도, 자유 생성에서는 Yes/No 형식으로 잘 출력하지 못해 generation EM이 낮아질 수 있다는 것입니다.

5.2 GSM8K: generation EM은 차이를 구분하지 못한다

GSM8K에서는 generation EM이 전체 25개 cell에서 0.00%~2.33% 사이에 머뭅니다. confidence interval도 거의 겹치기 때문에, generation EM만 보면 모델 크기나 학습 step에 따른 차이를 해석하기 어렵습니다.

반면 gold-answer log-probability는 차이를 보여줍니다. 최종 checkpoint에서 모델이 커질수록 정답에 더 높은 확률을 주는 경향이 나타납니다. 예를 들어 70M은 -8.62, 160M은 -7.18, 410M은 -6.28, 1B는 -6.27, 6.9B는 -5.79입니다.

여기서 논문은 “Pythia가 GSM8K를 잘 푼다”고 말하는 것이 아닙니다. generation EM이 낮다는 것은 실제로 end-to-end 풀이에는 실패한다는 뜻입니다. 다만 EM이 너무 바닥에 붙어 있어서 모델 간 차이를 구분하지 못하므로, log-probability 같은 continuous metric이 필요하다는 것입니다.

5.3 두 failure mode는 다르다

논문은 BoolQ와 GSM8K의 문제가 서로 다르다고 정리합니다.

BoolQ 같은 closed-set task에서는 generation EM이 모델 능력을 과소평가합니다. 모델이 정답 후보 중 무엇이 맞는지는 알고 있지만, 원하는 형식으로 생성하지 못하기 때문입니다.

GSM8K 같은 open-set task에서는 generation EM이 능력을 과소평가한다기보다, 거의 모든 점수가 0 근처라서 차이를 구분하지 못합니다. 이때 gold-LP가 모델 간 ordering이나 training trajectory를 더 잘 보여줍니다.

즉 5장의 핵심은:

BoolQ에서는 generation EM이 format 문제 때문에 모델의 hidden discriminative knowledge를 숨기고,
GSM8K에서는 generation EM이 너무 낮은 floor에 붙어 scale/training 차이를 해상도 있게 보여주지 못한다.

비판적으로 보면, 특히 BoolQ 결과는 pretrained base LM을 generation parsing으로 평가했기 때문에 생긴 당연한 현상일 수 있습니다. 그래서 이 결과를 “새로운 generation-format penalty 발견”으로 보기보다는, base LM에는 원래 forced-choice/log-likelihood 평가가 더 적절하다는 점을 다시 확인한 결과로 해석할 여지가 큽니다.

6 Discussion 핵심

6장은 결과를 어떻게 해석해야 하는지 설명하는 부분입니다. 핵심은 generation EM과 forced-choice EM은 서로 다른 것을 측정하므로, 어느 하나가 “진짜 성능”이라고 볼 수 없다는 것입니다.

BoolQ에서 Pythia-410M final checkpoint는 generation EM이 27%, forced-choice EM이 68%입니다. 논문은 이 둘 중 하나만 맞는 점수라고 보지 않습니다. generation EM은 모델이 정답을 원하는 표면 형식으로 생성했는지까지 포함해서 측정하고, forced-choice EM은 모델이 정답 후보에 더 높은 확률을 주는지를 측정합니다. 즉 두 metric은 서로 다른 능력을 봅니다.

또 하나의 핵심은 학습이 진행된다고 generation-format compliance가 항상 좋아지는 것은 아니다라는 점입니다. Pythia-410M의 경우 forced-choice gap이 학습 초기에 크고, 10k에서 줄었다가, 이후 다시 커집니다. 즉 final checkpoint만 보고하면 이런 training dynamics를 놓칠 수 있습니다.

논문은 gold-LP의 non-monotonicity도 중요하다고 말합니다. 예를 들어 일부 모델에서는 학습이 더 진행됐는데도 GSM8K나 BoolQ의 LP가 오히려 나빠지는 구간이 있습니다. 저자들은 원인을 설명하지는 않지만, 이런 현상 자체를 드러내는 것이 protocol의 장점이라고 봅니다.

마지막으로 decoupling score가 아주 크지는 않다는 점도 설명합니다. BoolQ와 GSM8K에서 generation EM과 보조 metric은 완전히 무관한 것은 아니고, 대략적인 모델 ordering에는 어느 정도 동의합니다. 하지만 checkpoint별 세부 ordering이나 모델 간 gap 크기에서는 차이가 생기므로, training dynamics나 scaling claim을 하려면 여러 metric을 함께 봐야 한다고 주장합니다.

즉 6장의 핵심은:

generation EM과 forced-choice/log-probability는 서로 다른 능력을 측정한다.
하나만 보고하면 모델의 학습 과정, scale 효과, format compliance 문제를 잘못 해석할 수 있다.
따라서 평가 결과는 replacement가 아니라 joint reporting으로 봐야 한다.

비판적으로 보면, 이 Discussion도 여전히 base LM 평가에서는 forced-choice/log-likelihood가 원래 더 자연스러운 평가라는 문제를 충분히 다루지는 않습니다. 그래서 “두 metric이 모두 중요하다”는 주장은 타당하지만, BoolQ에서 generation EM을 같은 수준의 기본 metric처럼 놓는 설정은 여전히 설득력이 약할 수 있습니다.

7 Broader impacts and responsible use

이 프로토콜은 평가 주장을 더 해석 가능하게 만들고, 단일 threshold metric에 덜 의존하게 함으로써 과학적 보고를 개선하는 것을 목표로 한다. 긍정적인 영향은 더 나은 benchmark 투명성이다. 저자, 리뷰어, downstream 사용자는 보고된 점수가 answer knowledge를 반영하는지, surface-format compliance를 반영하는지, 또는 둘 다를 반영하는지 확인할 수 있다.

가능한 부정적 영향은 metric shopping이다. 저자들이 모델을 가장 강하게 보이게 만드는 metric만 선택적으로 강조할 수 있기 때문이다. 이에 대한 완화책은 replacement reporting이 아니라 joint reporting을 요구하는 것이다. 이 프로토콜은 generation EM을 버리자는 권고가 아니다. generation EM이 숨기는 것을 드러내는 diagnostic metric과 함께 generation EM을 보고하자는 권고이다.

8 Limitations

이 pilot study의 경험적 범위는 좁다. 평가된 모든 모델은 instruction tuning이 되지 않은 Pythia checkpoint이다. 우리는 Pythia 2.8B에 대해서는 주장하지 않는다. Pythia 2.8B는 HuggingFace caching artifact 때문에 제외되었으며, 자세한 내용은 Appendix D에 있다. 또한 instruction-tuned model이나 6.9B를 넘는 frontier-scale model에 대해서도 주장하지 않는다.

sample size도 작다. BoolQ는 (n = 100), GSM8K는 (n = 300)이다. 더 큰 replication을 수행하면 confidence interval이 좁아지고, individual cell에 대한 더 강한 주장을 뒷받침할 수 있다.

task coverage도 최소 수준이다. 두 개의 task는 프로토콜의 가치를 보여주기에는 충분하지만, reasoning benchmark 전반을 조사하기에는 충분하지 않다.

마지막으로, 우리는 forced-choice gap을 관찰하지만 그 causal mechanism을 식별하지는 않는다. 가능한 mechanism으로는 answer-token probability mass가 whitespace, punctuation, chain-of-thought prefix 등에 흡수되는 경우, 그리고 " Yes" 같은 문자열이 어떻게 표현되는지에 대한 tokenizer-specific difference가 있다.

9 Conclusion

우리는 LLM reasoning benchmark를 위한 three-metric reporting protocol을 제안하고, 이를 Pythia에 대해 pilot study로 평가했다. 실험은 다섯 개 checkpoint, 100배 scale range를 포괄하는 다섯 개 model size, 그리고 두 개 task를 대상으로 한다.

BoolQ에서는 25개 cell 모두에서 forced-choice EM이 generation EM보다 높았고, 평균 차이는 27.6 percentage points였다. 이 gap은 training이 진행된다고 단조롭게 줄어들지 않으며, Pythia-6.9B final checkpoint에서도 +17 percentage points로 남아 있다.

GSM8K에서는 generation EM이 전체 sweep에서 통계적으로 유의미한 정보를 제공하지 못했지만, gold-answer log-probability는 scale과 training 차이를 구분했다.

이 프로토콜은 answer space에 따라 다른 auxiliary metric을 권고한다. closed-set task에는 forced-choice EM을 사용하고, 모든 task에는 gold-answer log-probability를 사용한다. 특히 forced-choice scoring을 사용할 수 없는 open-set task에서는 gold-answer log-probability가 중요하다.

중심 주장은 하나의 metric이 다른 metric을 대체해야 한다는 것이 아니다. benchmark report가 generation-format compliance와 answer knowledge가 언제 서로 달라지는지를 공개해야 한다는 것이다.

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-350, NeurIPS 2027-04