NL-300, ARR 202510

제목: How and Why LLMs Generalize: A Fine-Grained Analysis of LLM Reasoning from Cognitive Behaviors to Low-Level Patterns

◼ Comment

  • 정리
    • SFT와 RL 학습 차이를 reasoning, non-reasnoning 과제에서 분석하였다
    • 세부적으로 평가하기 위해, 추론하면서 맞춰야하는 여러 단계들에 대한 벤치마크들을 제작한다.
  • 장점
    • 새로운 벤치마크 구축: reasoning을 다섯 가지 핵심 인지 능력으로 분해하여 설계한 벤치마크를 제시함으로써, 기존 coarse accuracy 평가의 한계를 보완하였다.
    • 기존 연구 공백을 메움: SFT와 RL의 일반화 차이를 인지적 수준에서 체계적으로 분석한 시도는 드물었으며, 본 연구는 그 관계를 실험적으로 보여주었다.
  • 단점
    • 섹션 4.3에서 말하고자 하는 것은 알겠는데, 설명이 부족하다.
      • Sparse Autoencoder(SAE)를 이용해 latent representation을 분석하지만, 사용된 데이터셋 구체적 구성(어떤 샘플이 behavior labeling에 사용되었는지) 설명이 부족하다.
      • 그림 7에서 semantic feature가 증가하는 것은 어떠한 의미를 나타내는 것인가?
    • 섹션 4.1에서 언급하는 그림 3은, RL이 SFT보다 꼭 균형잡힌 결과로 보이지 않는다.
      • 이에 대한 정량적 수치가 필요해보인다
      • 모든 벤치마크들의 성능 숫자 값과 이들의 평균값도 리포트가 필요해보인다
    • SFT와 RL을 비교하는 reference 들이 부족해보인다
      • line 377
  • 제안
    • 섹션 3.2에서 언급한 table은 table 2가 아니라 table 1 같음
    • 방법론 설명 부족
      • line334-336 어떠한 teacher 모델이 사용됐는가? 이를 통해 어떻게 데이터를 모았는지에 대한 설명 필요함
    • 파라미터 스페이스 말고, SFR와 RL로 학습된 모델로 출력 토큰의 Logit distribution을 분석해보는 것은 어떤가?
      • 엔트로피를 통한 분석으로 발견할 점도 있지 않을까?

Abstract

대형 언어 모델(LLM)은 일반화(generalization) 행동에서 매우 두드러진 차이를 보인다. 지도 학습 기반 파인튜닝(SFT)은 흔히 모델의 역량을 축소시키는 반면, 강화학습(RL) 기반 튜닝은 이를 잘 유지하는 경향을 보인다. 하지만 이러한 차이가 발생하는 이유는 명확하지 않으며, 기존 연구는 대부분 정확도와 같은 거시적인 평가 척도에 의존하고 있다.

본 논문은 이 문제를 해결하기 위해 계산(calculation), 사실 검색(fact retrieval), 시뮬레이션(simulation), 열거(enumeration), 진단(diagnostic)과 같은 원자적이고 핵심적인 스킬(core skills)로 추론을 분해하는 새로운 벤치마크를 제안함으로써, "LLM에서 추론이란 정확히 무엇인가?"라는 근본적 질문에 대한 구체적 프레임워크를 제공한다. 이 벤치마크를 통해 각 핵심 스킬이 훈련 후(post-training) 과정에서 어떻게 나타나고, 전이되며 때로는 붕괴되는지를 더욱 세밀하게 분석할 수 있다.

또한, 분포적 차이(distributional divergence)와 파라미터 통계(parameter statistics)와 같은 저수준(low-level)의 통계적 패턴을 함께 분석하여 수학, 과학적 추론 및 비추론(non-reasoning) 과제에서 SFT 및 RL의 일반화 능력이 어떻게 발전하는지 보다 세밀하게 연구한다. 이와 같은 메타 탐색(meta-probing) 프레임워크는 다양한 훈련 단계에서 모델 행동을 추적하여 RL로 튜닝된 모델이 더욱 안정적인 행동 프로파일을 유지하며 추론 스킬의 붕괴를 방지하는 반면, SFT로 튜닝된 모델은 급격한 변화와 표면적인 패턴 과적합(overfitting)을 보인다는 점을 드러냈다.

본 연구는 LLM에서 추론의 본질에 대한 새로운 통찰을 제공하며, 보다 넓고 견고한 일반화를 촉진하는 훈련 전략의 설계 원칙을 제시한다.

1 Introduction

대형 언어 모델(LLM)은 긴 사슬 사고(Chain-of-Thought, CoT) 추론을 활용한 파인튜닝을 통해 수학 및 과학 벤치마크에서 강력한 성능을 보인다. DeepSeek-R1, OpenAI-o4, Claude-Sonnet과 같은 최근 모델들이 그 예이다. 하지만 이러한 모델의 일반화 능력은 여전히 취약한 경향이 있다. 

특히 흥미로운 패턴은 지도 학습 기반 파인튜닝(supervised fine-tuning, SFT)을 수행한 모델이 종종 성능 범위가 좁아지고 표면적 패턴에 과적합(overfitting)되는 반면, 강화학습(reinforcement learning, RL)으로 튜닝한 모델은 일반화 능력을 더 잘 보존하거나 심지어 개선한다는 것이다. 

  • 하지만 이러한 현상이 나타나는 근본적인 이유는 여전히 명확하지 않은데, 이는 기존 연구가 대부분 정확도(accuracy)나 pass@k와 같은 거친 척도를 사용했기 때문이다. 
  • 이런 척도는 추론 성공이나 실패를 결정하는 근본적인 행동 역학을 가릴 수 있다.
RL이 SFT보다 나은거 같은데, 이유가 밝혀지지 않았다. Reference가 없는데

본 논문에서는 추론을 하나의 단일한 특성으로 보기보다는, 계산(calculation), 시뮬레이션(simulation), 사실 검색(fact retrieval), 열거(enumeration), 진단적 자기 점검(diagnostic self-checking) 등 여러 원자적이고 핵심적인 스킬들이 훈련 중 습득한 통계적 패턴과 상호작용하면서 나타나는 창발적 성질로 간주한다. 

  • 최종 정답에 대한 정확도만으로는 이러한 중간 스킬의 약점을 가릴 수 있는데, 모델이 정확한 공식을 기억하고 있으면서도 프로세스를 잘못 시뮬레이션하거나, 표면적 패턴 매칭을 통해 우연히 정답에 이를 수도 있다. 
  • 훈련 후(post-training)에 이러한 스킬들이 어떻게 변화하는지 이해하는 것이 일반화 능력의 차이를 설명하는 데 필수적이다.
Reasoning 부분을 세분화해서 분석했다는 것인가?

예시로, 그림 1에서 보여주는 전형적인 용수철-블록 문제(spring-block problem)는 다음과 같다. 

  • 질량 2kg의 블록이 스프링에 연결되어 마찰이 없는 면 위에서 평형점에서 0.10m만큼 당겨진 뒤 놓였을 때, 최대 속도를 묻는 문제이다. 
  • 이 문제를 풀기 위해선 여러 원자적 핵심 스킬들이 순차적으로 필요하다. 
  • 문제를 푸는 사람은 먼저 스프링에 대한 에너지 보존 법칙을 떠올리고(사실 검색), 
  • 블록이 평형점으로 움직이며 퍼텐셜 에너지가 운동 에너지로 바뀌는 과정을 머릿속에서 시뮬레이션하며(시뮬레이션), 
  • 평형점에서의 최고 속도를 계산하고(계산), 
  • 마지막으로 단위와 경계 조건 등을 진단적으로 확인한다(진단). 
  • 각 스킬은 별도의 기능적 역할을 가지며, 어느 단계에서든 실패하면 전체 추론 과정이 깨질 수 있다. 
  • 이 특정 예시에서는 필요하지 않았지만, 가능한 경우를 모두 체계적으로 나열하는 열거(enumeration) 스킬 역시 조합적 또는 경우 기반 문제에서 필수적이다. 
  • 이는 실제로 우리가 "추론"이라 부르는 것이 간단한 인지적 요소들의 조합적 구성임을 보여준다.

기존 벤치마크와 분석 방법은 이러한 구조를 충분히 포착하지 못하고 있다. 

Numina-Math, Omni-Math와 같은 대규모 혼합 도메인 데이터셋은 어떤 스킬이 성공을 이끄는지를 모호하게 만들고, 

  • GSM-Symbolic이나 GSM-PLUS 같은 제어된 데이터셋은 너무 좁은 하위 스킬에 초점을 맞추고 있다. 
일반적인 정확도 척도는 중간 과정에서 나타나는 행동 변화를 숨긴다. 

  • 이러한 격차를 해소하기 위해 우리는 수학, 과학적 추론, 코딩, 비추론(non-reasoning) 과제를 포함하여 추론을 명시적으로 원자적 핵심 스킬로 분해하는 새로운 벤치마크를 제안하고, 분포적 차이나 단어 빈도 프로파일의 변동과 같은 저수준 통계적 패턴을 탐지하는 프로브(probes)를 추가하였다. 
  • 이 설계는 훈련 후 과정에서 개별 스킬과 통계적 경향이 어떻게 진화하는지를 추적할 수 있도록 해준다.
추론하면서 맞춰야하는 문제의 경우, 여러 단계들이 있는데 이런 단계들에 대한 분석이 없다? 어떤 스킬이 성공을 이끄는지 알아야한다.
지금은 모델 평가될때 이런게 무시되고 최종답만 맞추는 것에 있다.

우리의 실험 결과는 다음과 같은 여러 가지 중요한 사실을 드러냈다.

(a) RL은 균형 잡힌 인지 스킬을 보존한다. RL로 튜닝된 모델들은 수학 및 물리학, 비추론 과제에서도 계산, 열거, 시뮬레이션, 사실 검색 및 진단 등의 스킬에서 전반적으로 안정적이고 균형 잡힌 프로파일을 유지했다.

(b) SFT는 과도한 특수화와 행동 변화를 유도한다. SFT로 튜닝된 모델은 특정 스킬(주로 진단 또는 계산)에서 뾰족한 성능 향상을 보이지만, 시뮬레이션이나 열거 등 다른 스킬에서는 기준치 이하로 떨어지며, 이는 표면적 휴리스틱에 대한 과적합을 나타낸다.

(c) 파라미터의 변화 크기보다는 훈련 목표가 더 중요하다. SFT와 RL은 모델 파라미터의 유사한 비율을 변경하지만, 관찰된 성능 차이는 각자의 최적화 목표에서 비롯된다.

우리의 결과는 훈련 전략의 일반화 효과에서 왜 이러한 차이가 발생하는지 행동적 관점에서 설명하며, 견고하고 해석 가능한 추론을 위한 기초로써 원자적 핵심 스킬을 강화하는 것이 중요하다는 점을 강조한다.

2 관련 연구 (Related Works)

LLM의 추론을 위한 사후 훈련 (Post-training for Reasoning in LLMs)

최근 대형 언어 모델(LLM)의 발전은 특히 추론 능력을 위한 특화된 사후 훈련(post-training) 전략의 중요성을 강조하고 있다. [39]에서 소개한 Chain-of-Thought(CoT) 프롬프팅은 단계별 설명을 장려하여 기호(symbolic) 및 다단계 추론(multi-step reasoning) 작업에서 성능을 크게 향상시켰다. 최근 DeepSeek-R1과 같은 모델들은 CoT를 강화학습 기반 최적화와 결합하여 수학, 논리, 경쟁적 프로그래밍 벤치마크에서 최신 성능을 달성했다.

추론을 위한 사후 훈련 방법은 일반적으로 두 가지 범주로 나뉜다: 지도 학습 기반 파인튜닝(Supervised Fine-Tuning, SFT)과 강화학습 기반 튜닝(Reinforcement Learning, RL)이다. SFT는 주석이 달린 해답에서 얻어진 명시적인 추론 과정을 모델이 복제하도록 학습시키는 반면, RL은 명시적인 중간 단계의 감독 없이도 정확하고 논리적으로 일관된 추론을 수행하도록 모델에 보상을 부여한다. 

이러한 최적화 목표의 차이는 서로 다른 일반화 패턴을 만들어낸다. SFT는 모델의 행동 다양성을 축소시키고 표면적 휴리스틱(surface heuristics)에 과적합하는 경향이 있는 반면, RL은 일반적으로 더 넓은 추론 능력을 유지하거나 심지어 향상시키지만 때로는 보상 해킹(reward hacking)과 편향(bias)을 유발할 수도 있다. 

이러한 통찰에도 불구하고, 대부분의 이전 분석은 최종 작업 정확도(final-task accuracy)와 같은 거친 결과 기반 메트릭에 의존하며, 사후 훈련의 과정 수준(process-level) 및 표현 수준(representation-level)의 역학(dynamics)은 충분히 탐구되지 않고 있다.

일반화 및 도메인 간 추론 (Generalization and cross-domain reasoning)

학습 분포(training distribution) 외부의 작업이나 도메인에 대한 일반화는 LLM의 핵심 도전 과제로 남아있다. 확장 법칙(scaling laws)은 모델 크기 및 데이터 규모에 따른 성능의 전역적 경향을 보여주지만, 파인튜닝은 추론의 견고성(robustness) 및 오류 양식(error modes)에서 질적 변화를 종종 초래한다. 

비교 연구에 따르면 SFT 중심의 추론 모델은 자주 과도한 특수화(over-specialize)를 보이며 새로운 작업 형식이나 도메인에 대한 견고성을 잃어버리는 반면, RL 기반 파인튜닝은 더 나은 전이 가능한 스킬을 유지하는 데 도움을 준다. 

RL와 SFT와의 비교하는 reference들은 있는거 같긴한데, reasoning 을 분석해본 이전연구가 없었다는 것인가?

예를 들어 OpenAI의 o1 모델은 STEM 추론에서 뛰어나지만 다른 작업에서의 범용성(versatility)에 대한 우려를 낳기도 했다. 최근 평가에 따르면 추론 중심의 파인튜닝은 목표 작업의 성능을 향상시키지만, 때로 도메인 간 일반화를 희생시키는 경우가 있다. 본 연구는 이러한 연구들을 보완하여, 총체적인 정확도를 넘어 보다 세밀한 수준에서 추론을 분석한다. 

우리는 계산, 시뮬레이션, 열거, 사실 검색, 진단과 같은 핵심 인지 행동(core cognitive behaviors)으로 추론을 분해하여, SFT와 RL 튜닝이 이러한 구성 요소를 어떻게 차별적으로 형성하는지를 밝히고, 일반화 효과의 차이를 보다 명확하게 설명한다.

인지적 행동과 표현 수준의 변화 (Cognitive behaviors and representation-level shifts)

정확도만으로는 중간 추론의 약점을 숨길 수 있다. 따라서 우리는 성능을 다섯 가지 측정 가능한 행동—계산, 시뮬레이션, 사실 검색, 열거 및 진단 확인—으로 분해하여 도메인 및 훈련 단계 간에 이러한 스킬을 명시적으로 비교 가능하게 만든다. BIG-bench, MATH 및 관련 심리측정(psychometric) 연구도 유사한 능력을 언급하고 있지만, 우리의 프레임워크는 목표로 하는 프롬프트(prompts)와 메트릭(metrics)으로 이를 구체화한다. 또한 금융 분야의 "From Scores to Skills"와 같은 도메인 특화 분석 및 더 넓은 인지과학적 접근과도 연결된다.

파인튜닝은 외부 행동만을 변화시키는 것이 아니라 이를 뒷받침하는 내부 표현(internal representations)까지 변화시킨다. CoT는 보다 체계적인 추론을 유도할 수 있지만, 때때로 외부적으로 보여지는 과정(trace)이 내부의 실제 연산과 불일치할 수 있다(unfaithful). 희소 자동 인코더(sparse autoencoders) 및 활성화 조정(activation steering) 기법은 추론과 관련된 특성에 연결된 해석 가능한 하위 공간(interpretable subspaces)을 드러낸다. 행동 수준의 스킬과 표현 수준의 구조를 함께 측정함으로써, 우리는 SFT와 RL이 LLM 추론의 내부적 및 외부적 측면을 어떻게 다르게 형성하는지를 특징짓는다.

3. 추론을 세분화된 인지적 행동으로 분해하기 (Decompose “Reasoning” into Fine-grained Cognitive Behaviors)

이 연구의 중심 질문은 지도학습 기반 파인튜닝(supervised fine-tuning, SFT)과 강화학습 기반 튜닝(reinforcement-learning-based tuning, RL)과 같은 서로 다른 사후 훈련(post-training) 방식이 대형 언어 모델(LLM)의 전반적인 정확도뿐만 아니라, 그 기반에 있는 추론 스킬의 구성을 어떻게 변화시키는지에 있다. 

  • 이 논문의 주요 포인트라고 보면 될듯

이 질문에 답하기 위해 우리는 통제된 벤치마크(controlled benchmark)와 메타 분석(meta-analysis) 프레임워크를 개발하여 개별 인지적 행동(cognitive behaviors)이 이러한 훈련 방식을 통해 어떻게 발전하는지를 밝혀냈다.

우리의 접근 방법은 세 단계로 진행된다 (그림 2 참조). 

  • 먼저, 대표적인 모델 계열을 선택하고 SFT 및 RL의 여러 훈련 단계에서 체크포인트(checkpoints)를 수집한다. 
  • 다음으로, 수학(Mathematics), 과학적 추론(Scientific Reasoning), 코딩(Coding), 비추론 질문응답(Non-Reasoning QA)의 네 가지 도메인에 걸쳐 구성된 구조적 벤치마크를 구축하고, 
  • 계산(calculation), 열거(enumeration), 시뮬레이션(simulation), 사실 검색(fact retrieval), 진단 점검(diagnostic checking)의 다섯 가지 핵심 인지적 행동(core cognitive behaviors)을 명시적으로 평가하도록 설계한다. 
  • 마지막으로, 행동 중심의 프로브(behavior-focused probes)를 사용하여 훈련 역학(training dynamics)이 이러한 하위 스킬(sub-skills)과 이와 관련된 통계적 패턴(예: 분포적 차이, distributional divergence)에 미치는 영향을 분석한다.

이러한 통제된 설계(controlled design)는 총체적인 정확도를 넘어, SFT와 RL이 기본 행동(fundamental behaviors)에 대한 모델의 집중도를 어떻게 재분배하는지 세밀하게 추적하여, 두 훈련 방식 간의 차별화된 일반화 프로파일을 명확하게 설명한다.

3.1 벤치마크 구축 (Benchmark Construction)

구축 원칙 (Principles)
각 항목(item)은 단일 원자적 행동(계산, 열거, 시뮬레이션, 사실 검색, 진단)을 목표로 설계되었으며, 해당 스킬(skill)을 명확히 구분하고, 다양한 영역을 포괄하며, 문제의 난이도를 정밀하게 조정하는 방식으로 엄선하였다. (템플릿, 키워드 목록, 변형(perturbations), 평가 기준(rubrics) 등 구현 세부사항은 부록 B에 제시되어 있다.)

구축 과정 (Pipeline)
구축 과정은 다음과 같은 세 단계로 요약된다. (그림 2 참조)

  • 1단계: 시드 설계 (Seed Design)
    각 행동–도메인 조합에 대한 원자적 시드(seed)를 생성하여, 다중 스킬이 혼합되는 것을 피한다.
    어떤 시드들을 설계했는지? (부록)

  • 2단계: 후보군 검색 (Candidate Retrieval)
    대규모 공개 저장소(Nemotron, Polaris, DeepMath 등)에서 임베딩 기반(embedding-based)의 최근접 이웃 검색(nearest-neighbor search)을 수행하여 표면적으로 다양한 변형을 확보하며, 같은 행동이 여러 맥락에서 나타나도록 한다.
    어떤 임베딩 모델을 썼는지? (부록)

  • 3단계: 수동 검증 (Manual Verification)
    스킬 구분(skill isolation), 영역 커버리지(coverage), 다양성(diversity), 난이도(difficulty)를 기준으로 사람의 개입(human-in-the-loop)을 통해 문제들을 필터링한다. 이를 통해 표면적 문제 형식과 추론 행동이 분리된 고품질 벤치마크를 생성한다.

행동 조합 방법 (Behavior Assembly)
계산, 열거, 시뮬레이션 문제는 템플릿 시드(template seeds)와 키워드 쿼리를 사용하여 개방형 소스로부터 명시적인 단일 행동 흔적(single-behavior traces)을 포함하는 항목을 검색하고, 중복을 제거하며 여러 스킬이 섞인 경우를 제거한다. 

  • 계산, 열거, 시뮬레이션 문제에서는 하나의 헹동이 아닌 여러 행동이 섞인 문제는 제거한다?

사실 검색 문제의 경우, 답이 특정 인물, 정리(theorem), 정의 등에 명시적으로 의존하는 질문을 선택하며, 안내된(guided) 방식(프롬프트에 정리 명시)과 안내되지 않은(unguided) 방식(정리의 사용 여부를 솔루션에서 검증)을 사용한다. 

  • 검색 문제에서는 다음과 같은 문제를 만듬
  • 안내된 방식: "피타고라스 정리를 이용해 문제를 풀라."
  • 안내되지 않은 방식: "다음 삼각형의 변의 길이를 구하시오." (모델이 스스로 피타고라스 정리를 써야 함)

진단 문제의 경우, 유효한 추론 과정(trace)에 최소한의 변형(논리적 모순, 조건 누락, 반사실적(counterfactual) 조건)을 가한다. 프롬프트는 질문과 변형된 추론 과정을 포함하며, 모델은 오류를 찾아내고 수정해야 한다.

  • 원래 문제에서, 잘못된 조건등을 추가해서 이를 찾아내는지 판단하는 문제로 만듬

난이도 설정 (Difficulty)
문제의 난이도(easy, medium, hard)는 (i) 간단한 휴리스틱(숫자의 규모, 단계 수, 조건 범위, 변형의 미묘함), (ii) 참조 모델(reference-model)의 성공률, (iii) 스킬의 순수성(skill purity)을 우선시하는 인간 평가를 통해 결정된다.

프롬프팅 방식 (Prompting)
프롬프트는 표준화된 지침 헤더(instruction header), 행동별 맥락(예: 정리 태그, 변형된 과정(trace)), 출력 형식(output format), 고정된 디코딩 설정을 포함한다. (상세 내용은 부록 B.1에 제시됨)

인간 평가 (Human Evaluation)
행동, 도메인, 난이도 간의 커버리지(coverage), 형식과 요소의 다양성, 난이도 레이블(label)의 타당성을 확인하며, 의견 불일치가 있을 경우 조정(adjudicated)을 거친다.

평가 척도 (Metrics)
주요 평가 척도는 표준화된 디코딩(standardized decoding)을 적용한 정확도(accuracy)이다. 계산, 열거, 시뮬레이션은 단위 정규화(unit normalization)를 포함한 정확한 일치(exact match)를 사용하며, 사실 검색은 안내된 방식에서는 정확한 답과 정리에 부합하는 단계를 요구하고, 안내되지 않은 방식에서는 정확한 답과 정리의 올바른 사용을 요구한다. 진단의 경우 정답과 함께 명시적인 자기 점검(self-check) 행위를 요구한다.

글만 봐서는 잘 이해가 안되는거 같긴한데, 예시를 같이 봐야함

3.2 행동–도메인 그리드 (Behavior–Domain Grid)

해석 가능한(interpretable) 분석을 지원하기 위해, 우리는 이 벤치마크를 다섯 가지 인지적 행동(cognitive behaviors)과 네 가지 도메인(domain)을 교차시킨 2차원 그리드로 구성했다 (Table 2 참조). 

  • Table 1 아님?

각 행동–도메인 셀(cell)은 간결한 행동 정의와 일반적으로 두 가지의 대표 예시를 포함한다. 공간상의 제약으로 인해, 수학(Math) 도메인 칼럼을 기준으로 행동의 정의를 제시하며, 행동별로 하나의 대표 예시만 제공한다. 추가적인 수학 예시들은 부록 E의 Table C에 제공되어 있다.

다섯 가지 인지적 행동은 추론의 상호보완적(complementary) 측면을 나타낸다:

(1) 계산(Calculation)
명시적인 공식(formulas)이나 방정식(equations)을 통해 양적(quantitative)으로 처리하고 조작(manipulation)하는 능력.

(2) 열거(Enumeration)
조합적(combinatorial) 가능성을 체계적으로(systematic) 생성하는 능력.

(3) 시뮬레이션(Simulation)
역학(dynamics)을 정신적으로 또는 기호적으로(symbolic) 실행하고 예측하는 능력.

(4) 사실 검색(Fact Retrieval)
정의(definitions)나 상수(constants)와 같은 저장된 지식(stored knowledge)을 정확하게 기억하고 접근하는 능력.

(5) 진단(Diagnostic)
오류가 있는 추론이나 자기 모순적(self-contradictory)인 논리를 식별하고 교정(correcting)하는 능력.

예를 들어, Table 2에서 제시된 것과 같이, 계산 문제는 수학에서는 소인수를 묻는 문제부터 물리학에서는 축전기의 전하를 계산하는 문제까지 다양하게 분포되어 있다. 열거 문제는 고전적 조합론(combinatorics)부터 코드 내 집합 분할(set partitioning)에 이르며, 시뮬레이션은 뉴턴의 냉각 법칙(Newtonian cooling)과 같은 역학의 진행을 포함한다. 사실 검색 문제는 정리(theorems)나 과학 법칙을 정확히 기억하는지 테스트하며, 진단 문제는 잘못된 증명(proofs)이나 의도적으로 왜곡된 추론 템플릿에서 오류를 찾아내는 능력을 측정한다.

  • 이것도 Table 1 같음

이러한 그리드(grid) 구조는 추론 행동의 포괄적(comprehensive)이면서도 명확히 분리된(disentangled) 평가 범위를 제공하며, 이를 통해 SFT와 RL 훈련 방식이 각 행동 스킬을 도메인 내(in-domain) 및 도메인 간(cross-domain)에서 어떻게 변화시키는지 정밀하게 추적할 수 있다.

4. 실험 (Experiments)

실험 구성은 다음과 같다. 우리는 Qwen3-14B-Base 모델 및 그 모델을 지도 학습 기반(SFT) 및 강화 학습 기반(RL)으로 각각 튜닝한 변형 모델을 평가하며, 더 작은 크기의 Qwen3-4B-Base와 Qwen3-1.7B-Base 모델들도 함께 평가한다. 

훈련 역학(training dynamics)을 분석하기 위해 훈련 과정의 중간 체크포인트(checkpoints)에서도 평가를 수행한다. 

  • [12]에서 사용된 모델 구성을 따라, RL 모델은 GRPO 셋업을 사용한 Verl 프레임워크를 통해 정답 정확성(answer-correctness) 보상(reward)을 최적화하는 방식으로 RL 파인튜닝을 수행한다. 
  • SFT 모델은 LLaMA-Factory를 이용하여 teacher-generated chain-of-thought 데이터를 reject sampling 방식으로 학습한다.
  • 어떤 teacher 모델? teacher 모델로 인퍼런스해서 맞추면 reasoning 부분을 학습데이터로 사용하겠다는것이지? 이거에 대한 reference도 말해주면 좋을듯

평가는 앞서 소개한 인지적 스킬 벤치마크에서 정확도(accuracy)를 이용하여 진행된다. 본 논문에서 제안된 벤치마크의 세부 하위 범주(subcategory) 분포는 부록 C에 제공되며, 훈련 데이터셋, 베이스라인 모델, 하이퍼파라미터(hyperparameters)에 대한 추가 정보는 부록 A에서 찾을 수 있다.

4.1 인지적 스킬 프로파일 (Cognitive-skill Profiles)

RL은 균형 잡힌 스킬을 유지하는 반면, SFT는 과도한 특수화(over-specialization)를 초래한다.
Figure 3에서 나타나는 매우 흥미로운 패턴 중 하나는 RL 곡선의 둥글고 균형 잡힌 형태에 비해, SFT 곡선이 불규칙적이고 뾰족한 형태를 보인다는 점이다. 

  • 꼭 그런거 같지도 않은데...? 뭔가 정량적 수치 없을까
  • 평균 성능을 리포트는 해야할꺼 같은데? 뭐가 더 좋은지 모르겠음
  • SFT로 튜닝된 모델들은 일관되게 비대칭적(asymmetric)인 프로파일을 나타내며, 일반적으로 하나의 특정 스킬(대개 진단(diagnostic))에서 뚜렷한 성능 향상(spike)을 보이지만, 
  • 열거(enumeration)나 시뮬레이션(simulation)과 같은 다른 스킬에서는 기준치(baseline) 아래로 현저히 떨어지는 모습을 보인다.

이러한 패턴은 SFT가 제한된 소수의 추론 행동들에서 표면적 패턴(superficial patterns)을 과도하게 활용하여(over-fitting), 균형 잡힌 스킬의 집합(skill set)을 유지하지 못하고 특정 스킬에 과도하게 특수화하는 경향을 보여준다. 

  • 예를 들어, Math-4B 모델에서 SFT는 진단 스킬에서 기준 대비 약 3배 높은 날카로운 성능 향상을 보이는 반면, 열거와 시뮬레이션에서는 오히려 기준치를 하회한다. 
    • Math-14B 모델에서도 계산(calculation), 시뮬레이션(simulation), 특히 사실 검색(fact retrieval) 스킬에서는 기준치보다 낮은 성능을 나타낸다. 
  • 이와 대조적으로, RL로 튜닝된 모델은 다섯 가지 인지적 행동 모두에서 둥글고 부드러운 프로파일을 유지한다. 
    • 즉, 강화학습 기반 사후 훈련(reinforcement-learning post-training)은 다양한 추론 스킬을 균형적으로 보존하도록 촉진한다는 것을 의미한다.

이러한 형태상의 차이(shape contrast)는 SFT와 RL의 원시 정확도(raw accuracy) 차이가 미미한 경우에도 유의미하며, 모델의 크기나 기본 역량(base capability)이 아니라, 훈련 방식(regime)에 따라 인지적 스킬 균형이 달라진다는 점을 강조한다. 

요약하면, 둥글고 균형 잡힌 RL의 프로파일은 넓고 안정적인 스킬 보존을 강조하는 반면, 뾰족한 형태의 SFT 프로파일은 균형 잡히지 못한 편중된 스킬의 증감(spikes and dips)을 드러내며, 이는 과도한 특수화(over-specialization)의 시각적 특징으로, 전이(transfer) 및 일반화(generalization)를 저해한다.

긴 사슬 사고(Long CoT)는 SFT를 체계적(systematic) 추론으로 재조정한다.
이전 연구는 긴 체인오브쏘트(Long CoT) 데이터를 생산하는 '사고 모드(thinking mode)'로 훈련된 SFT 모델이, 짧은 체인오브쏘트(Short CoT)를 생산하는 '비사고 모드(no-thinking mode)' SFT 모델보다 일반적으로 더 우수한 성능을 보임을 밝혔다.  

  • reference 부재

Figure 5는 Math(a) 및 Physics(b) 도메인에서 사고 모드(think)와 비사고 모드(no-think)의 SFT 스킬 프로파일을 비교한다. 비사고 모드(파란색)는 계산(calculation)에 집중되어 있으며, 시뮬레이션(simulation), 진단(diagnostic checking), 열거(enumeration)는 뒤처진다. 

이에 비해 긴 CoT로 훈련된 사고 모드(주황색) 모델은 더 균형 잡힌 프로파일을 보이며, 다단계 추론(multi-step reasoning)에 필수적인 상호 보완적 프로세스로 용량(capacity)을 재분배한다.

수학(Math)은 훈련 도메인이며, 물리학(Physics)은 도메인 외(out-of-domain) 평가 환경으로서, 긴 CoT 패턴이 훈련 후(post-training) 계산 위주의 특수화를 줄이고 다른 구성 요소들을 강화시키는 전이성(transferability)이 특히 명확히 드러난다. 

  • 요약하면, 긴 CoT 훈련은 단지 절대적인 점수만을 개선하는 것이 아니라, 스킬 프로파일(skill profile)의 구조적 균형(geometry)을 바꿔서 모델이 단지 답을 암기하는 것이 아니라, '어떻게' 추론할지(reasoning process)를 내재화하도록 풍부한 감독(supervision)을 제공한다.

4.2 도메인 간 일반화 (Cross-Domain Generalization)

RL은 더 균형 잡힌 스킬 조합(skill mix)을 유지하며, SFT에 비해 도메인 간(cross-domain) 전이 시 성능 감소가 적다. 

  • 이전 연구[12]는 RL과 SFT 모두 수학(Math) 도메인에서 비추론(non-reasoning) 도메인으로 전이할 때 성능이 저하된다고 밝혔다. 
  • 하지만 일반적으로 RL은 성능 저하의 정도가 덜하며, 보다 균형 잡힌 스킬 구성을 유지한다는 점을 강조한다.

Figure 4는 오직 수학 도메인에서만 훈련된 모델들을 수학 및 비추론 도메인에서 평가한 결과를 비교하여 SFT와 RL의 훈련 후(post-training) 효과를 보여준다. 

  • RL로 튜닝된 모델은 비추론 설정(non-reasoning setting)에서도 더 매끄럽고 균형 잡힌 레이더 프로파일(radar profile)을 나타내는 반면, SFT 모델은 특정 스킬에 현저한 성능 향상을 보이면서 다른 스킬에서는 기준 이하로 떨어지는 불규칙적인 프로파일을 나타낸다.

이러한 패턴은 RL 기반 사후 훈련(post-training)이 일반적인 추론 역량(reasoning competencies)을 유지하는 정규화(regularizer)로 작용하는 반면, SFT는 수학에만 국한된 표면적 패턴(math-specific patterns)에 과적합(overfit)하여 도메인 간 전이(cross-domain transfer) 능력을 희생시킨다는 것을 시사한다. 

  • SFT는 학습한 부분에 대해서만 reasoning이 있는것이고, 실질적으로 RL이 추론 역량을 학습하는 개념이라는 거 같음

상대적으로 평평한 RL 곡선은 스킬 간 상호 간섭(skill interference)이 적고 다양한 인지적 행동(cognitive behaviors)의 일반적인 유지가 우수함을 의미하며, 이는 수학 도메인을 벗어난 절대적인 성능 향상(absolute gains)은 제한적이지만 스킬 유지 측면에서 장점이 있음을 보여준다.

4.3 행동과 희소 잠재 특징의 연결 (Linking Behaviors to Sparse Latent Features)

얕은 층(shallow layers)은 가우시안 분포에 가까운 반면, 깊은 층(deeper layers)은 베이스(Base), SFT, RL 모델 모두에서 더 무거운 꼬리 분포(heavy-tailed)를 보인다.
우리는 SAE(Sparse Autoencoder) 잠재 가중치(latent weight) 분포의 왜도(skewness) 및 첨도(kurtosis)를 함께 분석하여 훈련 방식이 고차원 구조(higher-order structure)를 어떻게 재구성하는지 특성화하였다. 

얕은 층에서 베이스 모델(base model)의 분포는 거의 대칭적이고 가우시안 분포에 가까워 비교적 균일한(homogeneous) 잠재 활성화(latent activations)를 나타낸다. 

SFT는 이 분포에 약간의 변화를 일으켜, 왜도와 첨도가 약간 증가하며 잠재 특징 선택성(latent selectivity)을 다소 강화한다. 층이 깊어질수록 세 가지 모델(Base, SFT, RL) 모두 무거운 꼬리 분포의 비가우시안 특성(non-Gaussian behavior)으로 변하며, 이는 특징의 전문화(feature specialization)가 증가함을 나타낸다. 

RL은 이러한 경향을 약간 더 강화하여 더 넓어진 왜도-첨도 분포와 국소적인 높은 분산 영역(localized higher-variance regions)을 보이나, 질적으로 전혀 다른 분포를 나타내지는 않는다. 전반적으로 RL은 베이스 모델과 SFT 모델에 이미 존재하는 층 깊이에 따른 점진적인 변화를 보존하면서, 잠재 특징의 이질성(heterogeneity)과 희소성(sparsity)을 다소 증가시킨다.

추론 관련 특징과 연결된 해석 가능한(interpretable) 하위 공간(subspaces)의 발견.
Figure 7은 Qwen3-4B, Qwen3-4B-SFT, Qwen3-4B-RL 모델을 대상으로 희소 자동 인코더(SAE)를 활용해 행동과 연결된 하위 공간을 분석한다. 우리는 Qwen3-4B의 중간 층(중간에 위치한 Layer 16)에 초점을 맞추었다. 이는 일반적으로 중간 층이 가장 풍부하고 복합적인(compositional) 표현(representations)을 가지고 있어, 모델 간 안정적인 비교를 위한 기준점(anchor)이 되기 때문이다. 이 깊이에서 두 가지 훈련 방식(SFT와 RL)은 모두 사실 검색(fact retrieval)과 자기 검증(diagnostic)을 위한 용량(capacity)을 증가시키는 경향을 보였다. 반면, 계산(calculation) 및 시뮬레이션(simulation)은 대부분 안정적으로 유지되었고, 열거(enumeration)는 희소하게 유지된다. 베이스 모델(Base model)에서 층 깊이에 따라 계산과 시뮬레이션은 점차 강화되는 반면, 사실 검색 및 진단 특징은 초기와 후기 층에서 두드러지고 중간 층에서는 감소하는 U자 형태의 분포를 보인다. 이러한 패턴들은 다음과 같은 파이프라인(pipeline)을 암시한다: 초기와 깊은 층은 검색(retrieval) 및 점검(checking)에 집중하고, 중간 층은 변환(transformation) 및 정보 전달(transport)에 집중하며, 훈련 후(post-training) 과정은 핵심적인 계산이나 시뮬레이션 회로(circuits)를 방해하지 않으면서 검색과 진단 하위 공간(subspaces)을 확대(amplify)하는 것으로 나타났다.

4.4 저수준 통계적 변화와 표면적 패턴 (Low-Level Statistical Shifts and Surface Patterns)

사후 훈련(post-training) 이후의 파라미터 변화 (Parameter-space shifts under post-training)
사후 훈련 효과를 정량적으로 평가하기 위해, 우리는 Qwen3-14B 모델 변형들에서 업데이트된 파라미터 비율과 변화 크기(magnitude)를 측정했다. Table 2에서 보듯이, 모든 모델 변형(variants)에서 대략 98%의 파라미터가 변경되며, 이는 업데이트가 광범위하게 이루어졌음을 나타낸다. 

RL 모델의 총 변화 크기(total change magnitude)는 SFT (no-think)보다 약간 작고 SFT (think)와 비슷한 수준으로 나타나, 보상(reward) 기반의 튜닝이 반드시 더 큰 규모의 전역적 변화를 야기하는 것은 아님을 보여준다.

파라미터 변화만으로는 더 큰 규모의 변화나 그런걸 말하는건 아니라는거 같음

구성 요소 수준 차이 (Component-level differences)
모듈(module) 단위로 파라미터 변화를 분해하여 살펴보면 (Table 2 참조), 임베딩(embeddings) 및 트랜스포머 층(transformer layers)이 각 훈련 방식에서 대부분의 변화를 차지하며, 정규화(norm) 층은 상대적으로 훨씬 적게 변화하였다(약 55.23%). RL 모델은 언어 모델 헤드(LM head)의 최대 변화 크기(maximum shift)가 SFT (think) 모델보다 약간 더 크게 나타났으며, 이는 RL이 출력 분포(output distribution)를 보상 신호(reward signals)를 통해 최적화하는 목적에 부합한다. 이는 RL이 출력층의 결정 경계(decision boundary)를 재구성하는 방향으로 주로 작용하는 반면, SFT는 네트워크 전체에 비교적 균일하게 변화를 분산시킨다는 관점을 뒷받침한다.

  • 파라미터 스페이스 말고, 출력 토큰의 logit distribution이 어떻게 변화하는지도 보면 좋을거 같음
  • 예를 들어, top-1의 prob이 RL이 더 낮다던가? 엔트로피가 더 높다거나 등

5. 요약 및 향후 연구를 위한 시사점 (Summary and implications for future study)

본 논문에서는 대형 언어 모델(LLM)의 추론 능력을 다음의 다섯 가지 핵심 인지적 행동(cognitive behaviors)으로 세밀하게 분해한 통제된 벤치마크를 제안했다: 계산(calculation), 열거(enumeration), 시뮬레이션(simulation), 사실 검색(fact retrieval), 진단 점검(diagnostic checking). 이 벤치마크는 수학, 과학적 추론, 코딩, 그리고 비추론(non-reasoning) 질문응답(QA)의 네 가지 도메인에 걸쳐 설계되었다. 우리가 개발한 3단계의 파이프라인은 사후 훈련(post-training) 방식이 이러한 스킬들을 어떻게 변화시키는지 재현 가능(reproducible)하고 해석 가능(interpretable)한 평가를 가능하게 했다.

우리의 연구는 다음의 세 가지 중요한 통찰을 제공한다:

  • 첫째, RL로 튜닝된 모델은 다양한 인지적 스킬이 보다 균형 잡힌(balanced) 분포를 유지하여 폭넓은 일반화(broad generalization)를 지원한다.

  • 둘째, SFT는 진단(diagnostic)과 같은 특정 협소한(narrow) 스킬은 향상시키지만, 시뮬레이션(simulation)과 같은 다른 스킬에서는 성능을 오히려 저하시켜 과도한 특수화(over-specialization)를 유발한다.

  • 셋째, 이러한 행동적(behavioral) 차이는 파라미터의 변화 크기(parameter scale)보다는 훈련 목표(training objective)에서 비롯된다.

이러한 결과는 앞으로의 추론 중심(reasoning-oriented) LLM 연구가 총체적인 정확도(aggregate accuracy)뿐만 아니라, 인지적 스킬의 균형 잡힌 개발(balanced skill development)에도 초점을 맞춰야 함을 시사한다. 향후 유망한 연구 방향으로는 스킬 붕괴(skill collapse)를 방지하기 위한 행동 인지적 목적(behavior-aware objectives), 도메인 특화(domain-specific) 및 전이 가능한(transferable) 스킬을 동시에 강화하기 위한 커리큘럼 전략(curriculum strategies), 희소 자동 인코더(sparse autoencoders)와 활성화 조정(activation steering)과 같은 내부 표현 수준(representation-level)의 방법을 사용하여 모델 내에서 추론과 관련된 하위 공간(subspaces)을 모니터링하고 안내하는 접근 등이 있다.

결론적으로, 본 연구에서 제안된 벤치마크는 사후 훈련이 인지적 행동(cognitive behaviors)을 어떻게 재구성하는지를 드러냄으로써, 보다 견고하고(robust), 해석 가능하며(interpretable), 전이 가능한(transferable) 추론 능력을 촉진하는 훈련 전략의 설계 방향을 제시하고 있다.

댓글