NL-350, NeurIPS 2027-04
The Generation-Format Penalty: Disentangling Model Knowledge from Output Format in Reasoning Benchmarks Abstract “정확 일치(exact-match)” 생성 방식으로 LLM의 추론 능력을 평가하는 것은 모델의 내부 지식과 특정 출력 형식을 따르는 능력을 혼동하게 만든다. 우리는 이를 분리하기 위한 세 가지 지표 보고 프로토콜을 제안한다: Wilson 95% 신뢰구간을 포함한 generation EM, closed-set task에서 모델이 대안들보다 정답 후보를 더 선호하는지를 측정하는 forced-choice EM, 그리고 teacher forcing 하에서의 gold-answer log-probability이다. Pythia 모델군의 25개 BoolQ cell과 25개 GSM8K cell을 분석한 결과, 단일 지표 보고는 answer space에 따라 서로 다른 두 가지 방식으로 실패한다는 것을 보인다. 실험은 70M부터 6.9B 파라미터까지의 Pythia 모델을 대상으로 하며, 각 모델은 다섯 개의 학습 checkpoint에서 평가된다. BoolQ에서는 25개 모든 cell에서 forced-choice EM이 generation EM보다 높았으며, 그 차이는 +7에서 +66 percentage points 범위였다. 평균 차이는 +27.6 points였고, 순서가 뒤집힌 경우는 한 번도 없었다. 이 차이는 small model에서만 나타나는 현상이 아니다. 모델 크기와 학습 과정 전반에 걸쳐 지속된다. 가장 두드러진 사례는 Pythia-410M이다. 이 모델에서 forced-choice EM은 65–70%로 안정적으로 유지되는 반면, generation EM은 학습 중간에 40%로 정점을 찍은 뒤 최종 checkpoint에서는 27%까지 하락한다. 같은 weight, 같은 example에서 41-point의 불일치가 나타난다. 6.9B에서도 이 gap은 여전히 17 p...