◼ Comment

이 논문은 SFT와 RL을 합치려고 한 시도를 보여준다
보통 LLM 학습할때 pretraining -> post-training 이뤄진다

post-training도 SFT -> RFT (reinforcement fine-tuning) 이렇게 또 나뉜다

여기서 사전 실험으로 이 순서에 대해 살펴본다

SFT
RL
SFT->RL
RL->SFT
SFT+RL 함께
이 결과 SFT+RL 가 제일 좋았고 그 다음 SFT->RL이 좋았다고 보여진다
이거에 대한 분석으론, SFT는 모델을 너무 크게 변화시키고 RL은 살짝 변화시키기 때문이라고 본다
실제로 SFT->RL하면 RL단계에서 기존 모델 (PLM)과 다시 가까워지는 경향을 보여준다 (그림 3)

즉 학습 순서가 중요하다라는 것을 보여주고

여기서는 SFT+RL을 함께 하는데, 좀더 세부적인 전략을 제시한다
1) 데모데이터라 해서 더 좋은 모델로 reasoning SFT 데이터를 만든다

이걸로 SFT 학습하고

2) 데모데이터+self roll-out으로 GRPO 학습하고

이렇게 다양하게 샘플링하는것도 학습이 안되는것은 아닌가봄

3) self roll-out으로 SFT 한번더 학습하는 느낌

대신 positive / negative 샘플을 구분해서 둘다 활용
정확히는 여기서 RFT라고 주장하는데, reward가 +1 이냐 -1이냐에 따라 SFT랑 식이 똑같아짐

1,2,3의 loss을 더할때, weight을 주는데, 완전 휴리스틱하게 주진 않고
문장의 엔트로피가 높다 = 불확실성이 높다을 통해 이럴 경우 weight을 낮게주고, 엔트로피가 낮다 = 불확실성이 낮다를 통해 weight을 높게주는 동적 weight을 도입한다

어쨋든 이랬을때, 확실히 효과가 있음을 보여준다

아쉬운건 가중치가 그래도 휴리스틱한 부분이 없지 않다.
ablation 보면 가중치에 따른 성능차이가 꽤 차이가 나기 때문에, 약간 민감한 부분 아닐까 싶음

SFT는 모델의 출력을 더욱 결정론적으로 만드는 경향이 있다.

이런 사실을 ref가 필요하면 기억해둘 필요는 있을듯

또 비슷한 연구로, 여기서 소개한

UFT: Unifying Supervised and Reinforcement Fine-Tuning Step-wise Adaptive
ntegration of Supervised Fine-tuning and Reinforcement Learning for Task-Specific LLMs
이런것도 읽어보면 좋을거 같다

가중치에 대한 좀 더 자세한 식은 아래와 같다

LLM은 각 프롬프트에 대해 여러 토큰에 대한 확률분포를 출력합니다. 따라서 실제로는 다음의 과정을 거쳐 계산합니다:

주어진 프롬프트 $x$ 에 대해 모델은 다음 토큰의 확률분포 $\pi_{\theta}(v|x)$ 를 계산합니다.
모든 토큰 $v \in V$ 에 대해 $\pi_{\theta}(v|x)\log(\pi_{\theta}(v|x))$ 를 계산합니다.
위의 값을 모든 토큰에 대해 합산하여 엔트로피를 얻습니다.
$H (π_{θ}) = - \sum_{v \in V} π_{θ} (v ∣ x) \log (π_{θ} (v ∣ x))$
마지막으로, 이렇게 얻은 엔트로피 값에 대해 지수 함수를 적용합니다.
$\exp (- H (π_{θ}))$

즉, 모델의 출력 확률분포만 있으면 쉽게 계산할 수 있습니다.

ABSTRACT

대형 언어 모델(LLMs)은 추론 과제에서 뛰어난 발전을 이루었지만, 지도 미세조정(SFT)과 강화 학습(RL)을 최적으로 통합하는 방법은 여전히 중요한 과제이다. 본 연구는 엔트로피 기반 관점에서 토큰 분포, 학습 동역학, 통합 메커니즘에 대한 종합적인 분석을 통해 두 가지 패러다임의 주요한 차이를 밝혔다. 즉, SFT는 언어 모델의 정책 분포를 전역적이고 조대하게 변경하는 반면, RL은 세밀하고 선택적인 최적화를 수행하며, 엔트로피가 학습 효율성을 나타내는 중요한 지표로 작용함을 확인하였다.

이러한 관찰을 바탕으로, 본 논문은 지도 강화 미세조정(Supervised Reinforcement Fine-Tuning, SRFT)을 제안한다. SRFT는 엔트로피 인식 가중치 메커니즘을 통해 SFT와 RL 두 가지 미세조정 방식을 단일 단계로 통합한 방법이다. 이 접근법은 두 단계로 나누어진 기존 방법이 아닌, 데모 데이터와 자기 탐색(self-exploration) 롤아웃(rollout)을 동시에 사용하여 언어 모델을 직접 최적화한다.

광범위한 실험을 통해, 제안된 SRFT는 다섯 개의 수학적 추론 벤치마크에서 평균 정확도 59.1%를 달성하며 RL을 사용하지 않은 방법들 대비 9.0%의 성능 향상을 보였고, 세 가지 분포 외(out-of-distribution) 벤치마크에서는 10.9%의 향상을 달성하였다.

1 INTRODUCTION

최근 복잡한 문제 해결 작업에서 뛰어난 능력을 보여준 추론(reasoning)용 대형 언어 모델(Large Language Models, LLMs)의 발전(OpenAI, 2025; Guo 외, 2025; Anthropic, 2025)은 놀라운 성과를 보이고 있다. 이러한 뛰어난 성과에도 불구하고, 추론 능력 향상을 위한 미세조정 전략(fine-tuning strategies)은 여전히 활발한 연구 분야로 남아 있으며, 그 과정에서 기회와 도전 과제가 공존한다.

초기의 접근법은 지도 미세조정(Supervised Fine-Tuning, SFT)과 강화학습(Reinforcement Learning, RL)을 각각 별도의 순차적인 단계로 취급하였다. 예컨대, SFT를 이용하여 지시사항을 따르는 능력(instruction-following)을 학습한 후, RL을 통해 모델을 원하는 방향으로 정렬(alignment)시키는 방식이다. 그러나 이처럼 두 단계를 나누는 방식에는 몇 가지 한계가 존재한다. SFT는 진정한 추론 능력을 키우기보다 데이터의 패턴을 단순히 암기하도록 유도하여 훈련 데이터에 과적합(overfitting)될 위험이 있다(Chu 외, 2025; Chen 외, 2025a). 반대로 RL 방식은 탐색(exploration) 및 보상(reward) 최적화에는 효과적이지만, 샘플 효율(sample efficiency)이 낮고, 방대한 해 공간(solution spaces)에서 효율적 탐색이 어렵거나(Gao 외, 2025; Dou 외, 2025; Schmied 외, 2025), 모드 붕괴(mode collapse)와 같이 모델이 계속 유사하고 최적이 아닌 출력을 반복적으로 생성하는 문제가 발생할 수 있다(Cai 외, 2025).

최근 연구들(Yan 외, 2025; Wu 외, 2025; Liu 외, 2025a; Chen 외, 2025b; Liu 외, 2025b)은 SFT와 RL을 통합하거나, LLM 훈련 중 두 미세조정 방법을 동적으로 전환하는 통합 프레임워크를 개발하는 방향으로 변화하고 있다.

SFT와 RL의 장단점을 설명하고, 최근에는 같이 하려는 시도가 있다라고 말해줌

그림 1(a)에서 보이듯이, SFT는 데모 데이터의 분포를 따라 LLM 정책을 이끌고, RL은 기본 정책(base policy)의 주변에서 더 나은 해를 탐색하도록 정책이 동작하도록 한다.

그냥 근데 뇌피셜 아닌가?ㅋㅋ

그림의 예시는 특별한 경우를 보여주는데, 기본 정책이 최적이 아닌 정책 근처에 있을 때, RL의 롤아웃(rollout)만으로는 최적의 정책으로 효과적으로 이동하기 어렵다. 단순히 개별적으로 SFT와 RL을 적용하는 것을 넘어, 단일 단계(single-stage) 방식으로 SFT와 RL을 통합하는 방법(예: 본 논문에서 제안하는 SRFT)은 정책이 더 넓은 탐색 공간에서 직접 최적화를 수행할 수 있도록 한다.

그러나 여기서도 SFT의 지식 전이(knowledge distillation)와 RL의 정책 최적화(policy optimization) 사이의 균형을 잡는 것이 도전 과제로 남아 있다. 즉, 충분히 통합되지 않은 방식으로는 오류가 전파되고 RL의 개선 효과가 제한될 위험이 있으며, 데모 데이터를 과도하게 신뢰하면 기본 정책 분포(base policy distribution)를 넘어서지 못하는 과적합이 발생하여 탐색을 제한할 수 있다. 이와 같은 균형 문제는 실제 적용자들에게 데모 데이터를 활용하는 SFT와 정책 탐색을 수행하는 RL 중에서 선택할 때 혼란을 준다.

이러한 문제를 해결하기 위해 본 연구에서는, SFT 데이터셋을 기반으로 LLM 추론을 효과적으로 수행할 뿐 아니라 RL 롤아웃으로 지속적 개선이 가능한 단일 단계의 LLM 미세조정 알고리즘을 구축하는 방법을 연구한다. 본 논문은 LLM 추론에서 SFT와 RL의 역할에 대한 포괄적인 분석을 수행한다. 3장에서 수행한 분석을 통해 다음과 같은 주요 결론을 얻었으며, 이후 알고리즘 설계의 핵심 지침으로 활용한다.

주요 결과 (Key Findings)

정책 분포의 효과(3.1.1절, 3.1.2절): 미세조정 과정에서 SFT는 언어모델 정책 분포에 전역적이고 조대한 변경을 가하는 반면, RL은 보다 미세하고 선택적인 변경을 수행한다.
단일 단계 최적화(3.1.2절, 3.2.2절): SFT와 RL을 단일 단계로 통합하면 추론 능력에 대한 직접적인 최적화가 가능하며, 순차적 방법(SFT→RL) 대비 우수한 훈련 효율성을 달성할 수 있다.
훈련 지표로서 엔트로피의 중요성(3.2.1절): 엔트로피의 동역학(entropy dynamics)은 훈련 과정의 내부 메커니즘을 나타내며, 두 패러다임 간의 균형을 효과적으로 유지하는 데 도움을 준다.

이러한 통찰력을 기반으로, 본 논문은 LLM 추론을 위한 단일 단계 미세조정 기법으로서 지도 강화 미세조정(Supervised Reinforcement Fine-Tuning, SRFT)을 제안한다.

그림 1(b)에서 보듯이, SRFT는 RL 과정 내에 SFT를 통합하고 엔트로피를 핵심 지표로 활용하여 두 패러다임의 균형을 유지한다.
구체적으로, LLM 정책의 롤아웃 샘플에 대해 보상이 양수인지 음수인지에 따라 서로 다른 RL 훈련 손실을 적용하고,
데모 데이터셋에서 가져온 샘플에 대해서는 SFT와 RL 목표를 동시에 적용한다.
이 통합된 접근법은 데모 데이터로부터 안정적으로 학습하는 동시에 SFT와 RL의 장점을 효과적으로 결합한다.

본 논문은 다섯 개의 경쟁 수준의 수학적 추론 벤치마크와 세 가지 분포 외(OOD) 벤치마크에서 제안된 방법을 평가하였다. 그 결과, Qwen-2.5-Math-7B(Yang 외, 2024)를 기반으로 한 SRFT는 기존 SFT와 RL 기반 방법보다 상당한 성능 개선을 보이며 평균 정확도 59.1%를 달성하였다. 또한 SRFT는 우수한 일반화 능력을 나타내어, 데모 데이터를 활용하는 다른 방법 대비 평균 4.7% 이상의 성능 개선을 보여주었다.

본 논문의 주요 기여점은 다음과 같다:

LLM 추론에서 SFT와 RL의 정책 분포 및 학습 동역학에 미치는 차이를 종합적으로 분석하고, 엔트로피 기반 시각에서 이들의 통합을 연구하였다.
지도 미세조정과 강화학습을 엔트로피 기반 가중치 메커니즘을 통해 통합한 단일 단계의 SRFT 미세조정 기법을 제안하여 데모 데이터 활용과 탐색 안정성을 보장하였다.
제안된 SRFT가 다양한 벤치마크에서 뛰어난 성능을 보여, 수학적 추론과 OOD 과제에서 기존 방법 대비 각각 9.0%, 10.9%의 상당한 개선을 달성함을 입증하였다.

2 예비 지식 (Preliminaries)

2.1 LLM 추론을 위한 SFT와 RL (SFT and RL for LLM Reasoning)

지도 미세조정(Supervised Fine-Tuning, SFT) 은 사전 훈련된 언어 모델을 특정 다운스트림 작업에 맞추거나 특정한 스타일 특성을 부여하는 표준적인 접근법이다.
데이터셋 $D = \{(x_i, y_i)\}_{i=1}^N$ 이 주어졌을 때, 여기서 $x_i$ 는 입력 프롬프트(input prompt)이고, $y_i$ 는 행동 정책(behavior policy) $\pi_\beta$ 에 의해 생성된 목표 응답(target response)이다. SFT의 목적은 언어 모델 정책(policy) $\pi_\theta$ (모수 $\theta$ )가 주어진 입력 $x_i$ 에 대해 목표 응답 $y_i$ 의 조건부 확률을 최대화하도록 훈련하는 것이다. 이는 일반적으로 데이터셋에 대한 음의 로그 우도(negative log-likelihood)를 최소화하여 달성된다.

L_{\text{SFT}}(\theta) = \mathbb{E}_{(x,y)\sim D} [-\log \pi_{\theta}(y|x)]

여기서, $y_j$ 는 응답 $y$ 의 $j$ -번째 토큰이고, $y_{<j}$ 는 $y$ 에서 $y_j$ 이전까지의 토큰 시퀀스를 나타낸다.

강화 학습(Reinforcement Learning, RL) 은 일반적으로 SFT 이후에 적용되며, 정적인 데이터셋만으로는 명시적으로 지정하기 어려운 복잡한 인간의 선호나 바람직한 행동(예: 추론 능력, 무해성 등)에 LLM을 더욱 정렬(alignment)하기 위해 사용된다. RL 훈련 과정에서 LLM의 토큰 생성은 마르코프 결정 프로세스(MDP; Markov Decision Process)(Puterman, 2014)로 모델링된다. 시간 단계 $t$ 에서 상태(state) $s_t$ 는 입력 프롬프트 $x$ 와 지금까지 생성된 모든 토큰 $y_{<t}$ 의 연결(concatenation)로 정의된다. 이 상태는 정책 모델 $\pi_\theta(\cdot|s_t)$ 의 입력으로 작용한다. 구체적으로, 정책 모델은 다음과 같은 형태의 상태를 처리한다:

s_t = (x, y_{<t}) = (x_1, x_2, \dots, x_l, y_1, y_2, \dots, y_{t-1})

여기서 $x_i$ 는 입력 $x$ 의 $i$ -번째 토큰이고, $y_j$ 는 시간 단계 $j$ 에서 정책 모델 $\pi_\theta$ 가 생성한 토큰이다. 행동(action) $a_t$ 는 다음에 생성할 출력 토큰 $y_t$ 의 선택과 대응된다. 정책 $\pi_\theta(a_t|s_t)$ 로서 동작하는 LLM은 프롬프트 $x$ 에 대해 토큰의 시퀀스(궤적; trajectory) $y$ 를 생성한다. 보상 함수(reward function) $R(x, y) = \sum_{t=1}^{T} r(x, y_t)$ 는 일반적으로 사람의 평가나 자동화된 메트릭(metric)에서 유도되며, 프롬프트 $x$ 가 주어졌을 때 전체 생성된 궤적 $y$ 에 대한 스칼라 점수를 제공한다. RL의 맥락에서, 행동 정책(behavior policy) $\pi_\beta(y|x)$ 는 리플레이 버퍼(replay buffer)에 포함된 응답을 생성한 모델을 의미한다. 이 행동 정책은 RL의 오프 폴리시(off-policy) 학습에서 특히 중요하며, 데이터 생성 모델과 현재 훈련 중인 모델 간의 분포 변화(distribution shift)를 보정하기 위한 중요도 샘플링(importance sampling) 교정에 필수적이다. LLM의 MDP 형식은 다음과 같은 몇 가지 특징을 가지고 있다.

순차적 상태 표현(Sequential state representation):
각 단계 $t$ 에서 상태 $s_t \in S$ 는 입력 프롬프트 $x$ 와 그동안 생성된 모든 토큰(행동) $y_{<t}$ 의 연결로 구성된다. 이 상태는 정책 모델 $\pi_\theta(\cdot|s_t)$ 의 입력으로 작용한다.
희소하고 지연된 보상(Sparse and delayed rewards):
보상 $R(x,y)$ 는 일반적으로 생성된 시퀀스 $y$ 가 완료된 후에만 제공되는 희소한(sparse) 형태이다. 최종 출력의 전반적인 품질에 의존하기 때문에 생성 과정 전반에 걸쳐 보상을 효과적으로 분배(credit assignment)하기 어렵게 만든다.

2.2 강화학습에서의 정책 최적화 (Policy Optimization in Reinforcement Learning)

LLM 정책(policy)을 최적화하기 위해, Group Relative Policy Optimization(GRPO)(Shao 외, 2024)는 기존 Proximal Policy Optimization(PPO)(Schulman 외, 2017)의 메모리 효율적인 변형으로 제시된 강화학습(RL) 알고리즘이다. GRPO의 주요 특징은 일반적으로 학습된 가치 함수(value function)를 사용하지 않는다는 것이다. 대신, 주어진 프롬프트 $x$ 에 대해 현재 정책을 이용하여 일반적으로 $G$ 개의 응답 그룹 $\{y_1, \dots, y_G\}$ 을 생성하고, 이 응답들 각각에 대한 보상 $\{R(x,y_1), \dots, R(x,y_G)\}$ 을 통해 각 응답의 상대적 이득(relative advantage)을 계산한다.

상대적 이득 $\hat{A}_k$ 는 다음과 같이 정의된다:

여기서

$\text{mean}(\cdot)$ 과 $\text{std}(\cdot)$ 는 각각 평균과 표준편차를 나타낸다.

그 후, GRPO는 안정적인 업데이트를 보장하기 위해 클리핑된(clipped) 대리(surrogate) 목적함수를 최대화한다. 업데이트 이전의 정책을 $\pi_{\theta_{\text{old}}}$ 라고 하자. 각 궤적 $y_k$ 의 상태 $s_t$ 에서 생성된 토큰 $y_{k,t}$ 에 대해 중요도 샘플링 비율(importance sampling ratio)은 다음과 같다:

r_{k,t}(\theta) = \frac{\pi_{\theta}(y_{k,t}|s_t)}{\pi_{\theta_{\text{old}}}(y_{k,t}|s_t)}

이를 통해 GRPO의 목적함수는 다음과 같이 표현된다:

여기서 $\epsilon$ 은 클리핑 범위를 결정하는 작은 하이퍼파라미터이다. 이러한 메커니즘을 통해 LLM의 정책이 업데이트되면서도 안정적인 기울기(gradient) 제약 조건을 유지한다.

3. LLM 추론에서 SFT와 RL의 분석 (Analysis of SFT and RL in LLM Reasoning)

본 섹션에서는 LLM 추론(Large Language Model Reasoning)에서 지도 미세조정(SFT, Supervised Fine-Tuning)과 강화학습(RL, Reinforcement Learning)이 가지는 역할에 대한 종합적인 분석을 제공한다. 먼저 토큰 분포에 대한 두 방법의 차이점(3.1.1절), 학습 동역학(learning dynamics, 3.1.2절)을 살펴보고, 이어서 엔트로피(entropy)를 기반으로 한 관점에서 두 방법의 통합 메커니즘(3.2절)을 분석한다.

모든 실험은 다섯 가지 수학 추론 벤치마크(AIME24, AMC, MATH500, Minerva, Olympiad)에서 수행되었으며, 결과는 이 벤치마크들의 평균값을 기준으로 보고한다. 또한 공정하고 최적의 성능 비교를 위해 모든 비교 방법의 하이퍼파라미터를 신중히 조정하였다.

3.1 LLM에 대한 SFT와 RL의 효과: 망치 대 메스 (SFT and RL Effects on LLMs: Sledgehammer vs. Scalpel)

3.1.1 토큰 분포에 대한 효과 (Effects on Token Distributions)

추론 능력을 향상시키기 위한 SFT와 RL의 효과적인 차이를 이해하기 위해, 동일한 프롬프트에 대한 응답을 같은 기반 모델(Qwen-2.5-Math-7B)을 사용하여 미세조정 전후의 토큰 확률 변화를 시각화하였다. 그림 2(a)에 나타난 결과는 근본적인 비대칭성을 보여준다.

즉, SFT는 응답 전체 시퀀스 전반에 걸쳐 확률 분포를 크게 변화시키는 반면, RL은 일부 작은 토큰 집합에 대해서만 선택적으로 확률을 변경하고, 수치적 내용과 수학적 증명 구문 등은 대부분 변화시키지 않은 채로 둔다.

더욱이 다섯 개의 벤치마크를 통해 이러한 분포 변화를 정량화한 결과(그림 2(b)), RL에 비해 SFT가 더 뚜렷한 정책 분포 변화를 유도한다는 점을 확인하였다. RL의 토큰 확률 변화는 0 근처에 밀집되어 있는 반면, SFT는 상당히 큰 폭의 변화를 보인다. 이러한 현상은 이론적 관점에서 SFT의 목적함수 기울기를 통해 이해할 수 있다:

\nabla_\theta L_{SFT} = \mathbb{E}_{(x,y)\sim D}\left[ \sum_{t=1}^{|y|}\sum_{v\in V}\left(\pi_\theta(v|x,y_{<t})-1_{v=y_t}\right)\nabla_\theta\log\pi_\theta(v|x,y_{<t}) \right]

여기서 $V$ 는 LLM의 어휘 집합(vocabulary)을 나타내고, $1_{v=y_t}$ 는 토큰 $v$ 가 목표 토큰 $y_t$ 와 같을 때 1을, 그렇지 않을 때는 0을 나타내는 지시함수(indicator function)이다. 자세한 유도는 Appendix D에서 제공한다.

이 공식에 따르면, SFT는 목표 토큰의 확률을 높이면서 어휘 집합 내 다른 모든 토큰의 확률을 낮춤으로써 모델 분포를 체계적으로 더 명확하고 결정적으로 만드는 방향으로 조정하게 된다.

즉, SFT는 모델의 출력을 더욱 결정론적으로 만드는 경향이 있다.

이러한 SFT, RL 특성이 있다는것을 ref로 삼을때 기억해두면 좋을듯

3.1.2 학습 동역학의 시각화 (Visualization of Learning Dynamics)

토큰 확률 분석을 넘어, 본 연구는 학습 동역학의 관점에서 미세조정 방식들을 분석한다. 그러나 LLM의 특징 공간(feature space)을 직접적으로 측정하는 것은 계산적으로 불가능하기 때문에, 본 논문은 새로운 시각화 접근법을 제안한다. 구체적으로, 각 모델을 어휘 집합(vocabulary)에 대한 확률 공간의 한 지점으로 매핑하여 모델을 입력 프롬프트를 출력 확률 분포로 변환하는 함수로 취급한다.

이를 위해 세 가지 참조(reference) 모델, 즉 기본 모델(base model, Qwen-2.5-Math-7B), DeepSeek-R1, QwQ-32B (Team, 2025)를 기준 좌표계로 설정하여, 미세조정 과정에서 모델의 발전을 간접적으로 측정한다. 두 모델이 모든 프롬프트에 대해 모든 토큰에 대해 유사한 출력 확률을 부여할 경우, 두 모델은 서로 가까운 것으로 간주된다. 본 시각화 방법론에 대한 자세한 설명은 Appendix E에서 제공한다.

이 시각화 결과는 그림 3에 나타나 있다.

이 그림은 모든 미세조정 방식이 기본 모델(Qwen-2.5-Math-7B)의 공간으로부터 벗어나면서 동시에 성능 향상을 보인다는 점을 보여준다. 특히, SFT는 RL에 비해 기본 모델로부터 더 큰 분포 변화를 나타내며, 더 높은 성능을 달성한다. 이는 앞선 3.1.1절의 관찰을 뒷받침하며, SFT가 모델 분포에 더 큰 변화를 유도하는 반면, RL은 초기 지점 주변에서 미세하게 조정된다는 사실을 다시 한번 확인한다.

이어서 두 가지 통합 방식, 즉 두 단계 방식의 SFT→RL과 본 논문에서 제안하는 단일 단계 방식의 SRFT에 대해 추가적으로 분석하였다. 분석 결과, 두 단계 SFT→RL 방식의 학습 동역학은 초기의 SFT 단계 이후, 성능은 더 높은 영역으로 이동하지만 역설적으로 다시 기본 모델 쪽으로 더 가까워지는 경향을 보였다. 이는 초기 SFT 단계가 기본 모델로부터 지나치게 많은 분포 변화를 유발하여 이후의 RL 효과를 제한할 가능성을 암시한다.

반면 본 논문에서 제안하는 단일 단계 방식(SRFT)은 확률 공간에서 보다 제한적이면서도 목표 지향적인 변화를 보이며, 순차적 방식과 비교할 때 더욱 정밀한 최적화가 가능하도록 한다는 점을 확인할 수 있었다.

그림이 되게 신기하네.

말하고자하는 것은, SFT는 너무 모델을 크게 변화시킨다. RL은 살짝 변화시킨다
SFT+RL하면 다시 모델로 가까워진다.

3.2 SFT와 RL의 통합: 두 단계에서 단일 단계로 (Integration of SFT and RL: From Two-Stage to Single-Stage)

3.2.1 순차적 통합 분석 (Sequential Integration Analysis)

본 절에서는 SFT와 RL의 상호보완적 역할을 이해하기 위해 엔트로피(Entropy) 동역학 관점에서 두 방식의 통합을 분석한다. 특히, 그림 4에 나타난 바와 같이 두 가지 순차적 통합 접근법인 SFT→RL과 RL→SFT에 대해 체계적인 분석을 수행한다.

표 1과 그림 4(a)에서 나타나듯이, RL 이후에 SFT를 적용하는 방식(RL→SFT)은 일관되게 모든 벤치마크에서 최적 이하의 성능을 보인다. RL→SFT가 유발하는 부정적 정책 변화(policy shifts)를 완화하기 위해 KL 발산(KL divergence) 제약 조건을 추가하여 분포 변화를 정규화하는 SFTKL 방법을 도입했음에도 불구하고, 성능 향상은 제한적이었다. 이는 이러한 순서의 방식이 근본적으로 비효율적임을 시사한다.

반대로, 기존 방법들은 기본 모델의 SFT 이후에 RL을 적용할 경우 상당한 성능 향상을 성공적으로 얻어낸다(표 1 참조). 이처럼 비대칭적 현상(asymmetric behavior)은 미세조정 패러다임의 순서가 최종 모델의 성능에 결정적인 영향을 미친다는 것을 보여주며, 이러한 현상의 근본 원인을 밝히기 위해 엔트로피 기반 분석이 필요함을 시사한다.

즉 RL하고 SFT를 하면 오히려 RL만 하는것보다 성능이 감소하는 것을 볼 수가 있다...

기존에 알려진듯이, SFT하고 RL을 하면 성능이 향상된다. RL만 하는것보다도 좋다
즉 학습순서가 성능에 중요하고, 원인을 알기 위해서는 엔트로피 기반 분석이 필요하다

이러한 비대칭적 현상을 이해하기 위해 SFT와 RL의 학습 동역학을 엔트로피 관점에서 분석하였다.

그림 4(b)에 나타난 바와 같이, RL 이후의 정책들은 엔트로피가 상당히 낮아지며 거의 결정론적인(deterministic) 출력을 보인다. 그러나 이후에 수행되는 SFT로 인해 분포가 변화하면 엔트로피는 급격히 증가하며(이는 그림 4(a)의 성능 급락과 일치), 이후 점차 감소하는 경향을 보인다. 더욱이 RL 이후의 모델은 이후 SFT를 통한 추가 학습 능력이 매우 제한적이며, 약 90 훈련 단계(training steps) 이후 엔트로피가 더 이상 감소하지 않는 현상(entropy plateau)을 보인다(그림 4(b)).

반면, 기본 모델로부터 시작해 SFT를 수행할 때는 초기에 엔트로피가 잠깐 증가한 후 지속적으로 감소하며 결과적으로 성능이 개선된다. 이처럼 뚜렷이 구별되는 엔트로피의 변화 양상은, RL이 LLM의 성능을 효과적으로 향상시키는 반면, 동시에 모델의 가소성(plasticity), 즉 추가적인 학습을 통한 적응 능력을 감소시킨다는 점을 보여준다.

이러한 결과는 효과적인 SFT와 RL의 통합을 위한 중요한 지표로서 엔트로피의 역할을 명확히 드러낸다.

성능과 엔트로피를 그림을 통해 보여주는 것

파랑색을 보면, RL->SFT을 한건데, SFT을 학습한다고해서 성능이 어느순간 잘 안오름
엔트로피를 보면, SFT 초반에 갑자기 엔트로피가 급격히 늘어남. 그후 떨어지는 형상
뭔가 이상함을 알수가 있음

3.2.2 단일 단계 통합 분석 (Single-Stage Integration Analysis)

앞선 분석을 바탕으로, SFT→RL 방식이 RL→SFT 방식과 비교하여 LLM 추론에 더 적합하다는 결론을 얻었다. 그러나 이러한 순차적 통합 접근법을 넘어, 본 연구에서는 두 가지 패러다임을 직접적으로 하나의 단일 단계(single-stage) 접근법(SFT+RL)으로 통합하는 방식을 탐구한다.

이 접근법의 결합된 목표 함수(objective)는 $L_{SFT+RL} = L_{SFT} + L_{RL}$ 로 표현된다.

우리는 순수한 RL, 다양한 SFT 단계 이후의 순차적 SFT→RL, 그리고 단일 단계 SFT+RL 접근법을 예비 실험을 통해 비교하였으며, 그 결과는 그림 5에 나타나 있다.

실험 결과, 단일 단계의 SFT+RL 방식이 순차적인 SFT→RL 방식에 비해 우수한 학습 효율성을 달성한다는 점을 확인하였다.

특히, 장기적인 SFT 사전 훈련을 거친 모델(SFT를 350 단계 수행 후, RL을 150 단계 수행하는 모델)에서 RL 초기 단계 동안 성능이 일시적으로 하락하는 현상이 발견되었다. 우리는 이러한 현상이 주로 두 가지 주요 요인에 기인한다고 판단한다.

첫째, 고품질 데모 데이터셋에서 얻은 SFT 데이터라 할지라도, 다른 모델로부터 생성된 응답들은 일관되게 최적의 해를 나타내지 않을 수 있으며, 이로 인해 SFT 단계에서 최적 이하의 정책 학습이 발생할 수 있다.

둘째, 순수 RL 방식은 데모 데이터를 효과적으로 활용하지 못하기 때문에 데이터 효율성이 제한적이다.

순차적인 SFT→RL 훈련 방식에서는 RL 단계가 SFT 단계에서 습득한 지식을 급격히 망각(catastrophic forgetting)하게 되어(Cai 외, 2025), 일시적인 성능 하락이 나타날 수 있다.

반면, 단일 단계의 SFT+RL 방식은 통합된 최적화를 통해 데모 데이터를 효과적으로 활용할 수 있다.

이러한 접근법은 지도학습 데이터셋으로부터 얻은 지식 증류(knowledge distillation)의 이점을 유지하면서 목표 목표를 직접적으로 정책 최적화(policy optimization)할 수 있도록 한다.
특히, 두 데이터셋 활용 방식 모두 순수한 RL 방식보다 모든 성능 지표에서 상당히 뛰어난 성능을 나타낸다.

여기서 SFT 학습할 데이터를 더 좋은 큰 모델로 만드는 것인데, RL만 학습하면 이 데이터를 못쓰는 단점이 있고

SFT하고 RL하면, 망각현상때문에 일시적인 성능 하락이 나타날 수 있다는 것

그림 5가 예비실험 같은데, 어떻게 했는지 자세히는 언급안하지만, 어쨌든 SFT+RL 같이하는게 성능 좋다고 말함

4 방법론 (METHOD)

본 절에서는 지도 미세조정(SFT)과 강화 학습(RL)의 장점을 단일 단계(single-stage) 접근 방식으로 통합한 SRFT(Supervised Reinforcement Fine-tuning) 알고리즘을 제시한다.

앞서 2.2절에서 설명한 RL 프레임워크를 기반으로, SRFT는 데모 데이터(demonstrations)를 통한 유연한 지침을 통합하여 두 가지 미세조정 패러다임의 상호 보완적인 강점을 효과적으로 활용한다. SRFT의 핵심적인 혁신점은 단일 단계 학습 메커니즘에 있다.

즉, 데모 데이터와 자기 탐색(self-exploration)을 통해 생성한 시행착오(trial-and-error) 데이터를 동시에 활용하여, SFT를 통한 조대(coarse-grained)한 행동 정책(behavior policy)의 근사(approximation)와 RL을 통한 미세한(fine-grained) 정책 정제(refinement)를 결합한다.

4.1 데모 데이터로부터의 학습 (Learning from Demonstrations)

SRFT는 데모 데이터셋( $D_{\text{demo}}$ , 예: DeepSeek-R1 모델이 생성한 추론 응답)을 효과적으로 활용하기 위해 이중적 전략(dual-pronged strategy)을 사용한다.

첫째, 우리는 SFT를 통해 전문가 응답(expert responses)의 기반이 되는 행동 정책(behavior policy)을 조대하게 근사(coarse-grained approximation)한다.

행동 정책 $\pi_\beta(y|x)$ 는 고품질의 응답을 생성하는 기반이 되는 생성 패턴을 포착하고 있으며, 우리는 이 정책을 지도 학습을 통해 근사하고자 한다:

데이터 distillation 개념으로 SFT 학습

둘째, 우리는 LUFFY(Yan 외, 2025)와 유사한 오프 폴리시(off-policy) RL 접근법을 채택하여 행동 정책을 세밀하게 학습(fine-grained learning)한다. 구체적으로, 데모 데이터를 LLM의 온 폴리시(on-policy) 롤아웃(rollout) 그룹과 직접 결합하여 이질적인(heterogeneous) 훈련 배치를 구성한다:

self roll-out과 demo 데이터를 같이 합쳐서, GRPO 배치를 만듬

여기서 $G_{\text{roll.}}$ 은 온 폴리시 롤아웃 그룹, $G_{\text{demo.}}$ 는 데모 그룹을 나타낸다. 전체 그룹에 대한 어드밴티지(advantage) 추정은 다음과 같이 계산된다:

전문가 LLM으로부터 생성된 응답은 일반적으로 더 높은 보상을 가지므로, 이 응답을 포함하면 전체 그룹의 어드밴티지 추정치가 상승하며, 이를 통해 LLM 정책이 낙관적 탐색(optimistic exploration)을 수행하도록 유도할 수 있다.

분석을 통해 확인된 바와 같이, 데모 데이터의 행동 정책 $\pi_\beta$ 와 현재 훈련 중인 정책 $\pi_\theta$ 간의 분포 불일치(distribution mismatch)를 완화하기 위해 다음 두 가지 전략을 구현한다:

데모 데이터에 대한 SFT 과정에서, 엔트로피 분석(3.2절 참조)을 통해 엔트로피가 효과적 SFT와 RL 통합을 위한 중요한 지표라는 것을 확인했다. 이를 바탕으로 현재 정책의 엔트로피에 따라 동적으로 조정되는 적응적 가중치 메커니즘(adaptive weighting mechanism)을 도입하였다. 이를 통해 SFT 가중치로 $w_{\text{SFT}}=0.5 \times \text{stop\_grad}(\exp(-H(\pi_\theta)))$ 를 적용하며, 여기서 $\text{stop\_grad}(\cdot)$ 는 기울기를 멈추는 연산이다. 이 엔트로피 인식(entropy-aware) 메커니즘은 정책의 엔트로피가 높을 때(불확실성이 높을 때) SFT 학습 손실이 모델 업데이트에 미치는 영향을 감소시키고, 이는 데모 행동 정책과 현재 정책 간의 분포 불일치로 인한 성능 저하를 완화하면서도 효과적인 행동 정책 근사를 가능하게 한다:

동적 weight을 주려고 한거 같은데, 이 의미가 엔트로피가 높을때는 불확실 하므로 낮은 weight을 / 엔트로피가 낮을때는 확실하므로 높은 weight을 주려고 한 것 같음
단, 여기서 매번 weight가 scalar로 들어가는 개념 (학습에 사용되는 것은 아니라는 것)

오프 폴리시 RL 훈련을 위해, 행동 정책과 현재 정책 간의 분포 변화를 고려하기 위한 중요도 샘플링(importance sampling) 항을 도입한다. 이는 GRPO(Shao 외, 2024), PPO(Schulman 외, 2017)와 유사하다:

r_{k,t}(\theta)=\frac{\pi_\theta(y_{k,t}|x_t)}{\pi_\beta(y_{k,t}|x_t)}

최근 연구들(Yan 외, 2025; Ma 외, 2025)의 관례에 따라, 행동 정책 $\pi_\beta=1$ 로 설정하여 행동 정책과 현재 훈련 중인 정책을 정렬할 때 발생할 수 있는 토큰화(tokenization)의 복잡성을 방지하였다.

요즘에는 그냥 분모 (old policy) 부분을 1로도 설정하나보네
앞의 GRPO 소개에서, 원래는 모든 응답의 모든 토큰에 대해 loss을 계산하는데

여기서는 demo 데이터세트에 대해서만 loss을 계산하는 식으로 보임

이를 통해 기존의 데이터셋을 별도의 행동 정책 확률 계산 없이 쉽게 통합할 수 있다. 또한 표준 클리핑(clipping) 메커니즘은 $\pi_\beta=1$ 일 때 불균형적이고 불안정해질 수 있으므로 클리핑 연산은 생략한다.

4.2 자기 탐색을 통한 학습 (Learning from Self-Exploration)

데모 데이터를 활용하는 것 외에도, SRFT는 언어모델(LLM)의 정책이 자체적인 탐색(self-exploration)을 통해 생성한 데이터에서도 동시에 학습할 수 있게 한다.

전통적인 RL 방식은 롤아웃(rollouts) 과정에서 생성된 긍정적(positive) 및 부정적(negative) 샘플 모두를 활용하여 학습한다.
그러나 이 연구에서는 이진 보상(binary rewards, {+1, -1})을 사용하는 온 폴리시(on-policy) RL 환경에서 기본 RL 목표함수(objective)가 다음 두 개의 구성요소로 자연스럽게 분리될 수 있음을 관찰하였다:

여기서 $D$ 는 RL 훈련 데이터셋을 나타내고, $y^{+}$ 와 $y^{-}$ 는 각각 정답 응답(긍정 샘플)과 오답 응답(부정 샘플)을 나타낸다. 이 분해에서 중요한 통찰(insight)은 다음과 같다:

긍정 샘플에 대한 목표(항1)는 정확한 응답의 가능성을 최대화하는 형태로서, 지도 학습(SFT)의 목표와 구조적 유사성을 가진다. 그러나 이 긍정 샘플은 SFT 데이터셋에서 가져온 것이 아니라, 현재의 정책 $\pi_{\theta}$ 가 온 폴리시(on-policy)로 자체적으로 생성한 것이라는 점에서 일반적인 지도 학습과는 구분된다.
부정적 보상(항2)은 오답 응답에 부여된 확률을 최소화하여 잘못된 응답을 생성할 가능성을 체계적으로 낮추는 역할을 한다.

자기가 샘플링한것에서 positive는 생성하도록, negative는 생성하지 않도록 다시 학습데이터로 사용한다는 의미

이러한 구조적 유사성은 긍정 샘플로부터의 학습이 조대한(coarse-grained) 최적화 전략을 구성하며, 이에 대한 신중한 균형(balance)이 필요함을 암시한다. 또한 데모 데이터를 통한 학습과 비교하여, 자기 탐색을 통한 학습은 모델이 점차 결정론적인(deterministic) 출력을 향해 수렴하면서 엔트로피(entropy)가 급격히 감소하게 된다. 이로 인해 탐색 능력이 저하될 위험이 있다.

이러한 현상을 완화하고 훈련 안정성을 유지하기 위해, 3.1.1절의 분석에서 영감을 받아, 긍정 샘플 목표에 특별히 설계된 엔트로피 기반의 가중치 메커니즘(entropy-adaptive weighting mechanism)을 도입하였다:

w_{\text{RL}}=0.1\times\text{stop\_grad}\left(\exp(H(\pi_{\theta}))\right)

이 메커니즘은 앞서 제안한 데모 데이터에서의 SFT 가중치( $w_{\text{SFT}}$ , 식(8))와 유사한 형태이지만, 탐색의 다양성을 유지하는 보완적인 목적을 갖는다. 따라서 자기 탐색을 통한 전체 목표함수는 다음과 같다:

4.3 단일 단계 접근법에서의 데모 데이터와 자기 탐색 롤아웃의 통합 (Integrating Demonstrations with Self-Exploration Rollouts in a Single-Stage Approach)

데모 데이터와 자기 탐색 롤아웃(self-exploration rollouts)을 동시에 활용함으로써, SRFT는 단일 단계 미세조정 과정에서 SFT의 조대한(coarse-grained) 조정과 RL의 미세한(fine-grained) 정제를 효과적으로 균형 있게 결합할 수 있다. 최종적인 손실 함수(total loss function)는 다음과 같이 네 가지 요소를 결합한다:

$L_{\text{SRFT}}(\theta)=L_{\text{SFT}}^{\text{demo}}(\theta)+L_{\text{RL}}^{\text{demo}}(\theta)+L_{\text{RL}}^{\text{self-rollout}}(\theta)$

이 목표 함수는 데모 데이터와 자기 탐색 롤아웃의 이점을 동시에 활용하면서, 두 가지 엔트로피 인식 가중치(entropy-aware weighting) 메커니즘을 통해 안정적인 훈련 동역학(training dynamics)을 유지할 수 있도록 설계되어 있다.

약간 하이퍼파라미터가 많은게 좀 단점이긴한듯

📌 5장 실험 (Experiments) 요약

이 논문에서는 제안된 SRFT(Supervised Reinforcement Fine-Tuning)의 성능을 평가하기 위한 광범위한 실험을 수행하였다. 실험의 목적은 SRFT가 기존의 미세조정 방법(SFT, RL 등)에 비해 얼마나 뛰어난지, 특히 수학적 추론 및 분포 외 일반화(OOD Generalization) 측면에서 어느 정도의 성능 향상을 보이는지를 확인하는 것이다.

5.1 실험 설정 (Experimental Setups)

훈련 데이터셋
- 실험은 OpenR1-Math-46k-8192 데이터셋을 활용하여 진행하였다. 이 데이터셋은 46,000개의 수학 문제로 구성되어 있으며, DeepSeek-R1 모델로 생성된 고품질의 추론 응답을 포함한다.
- 문제는 Math-Verify를 통해 검증된 사례만 포함하도록 필터링되었다.
평가 방법
- 평가에 사용된 벤치마크는 수학 추론 벤치마크 5가지 (AIME24, AMC, MATH500, Minerva, Olympiad)와 분포 외(OOD) 벤치마크 3가지 (ARC-C, GPQA-D, MMLU-Pro)를 포함하여 총 8가지이다.
- 평가 기준으로는, 소규모 벤치마크는 avg@32 메트릭을 사용하고, 그 외의 벤치마크에서는 pass@1 메트릭을 활용하였다.
기반 모델
- 기본적으로 Qwen2.5-Math-7B 모델을 사용하였다.

5.2 실험 결과 (Experimental Results)

수학 추론 벤치마크 성능
- 제안된 SRFT는 5가지 경쟁 수준의 수학적 추론 벤치마크에서 평균 정확도 59.1%를 기록하며, RL을 사용하지 않은 최고 성능 모델보다 평균 9.0% 높은 성능을 보였다.
- 기존의 SFT 방식보다 4.8%, 기존 SFT+RL 방식들에 비해서도 3.4%의 성능 향상을 달성했다.
분포 외 일반화(OOD Generalization)
- SRFT는 3가지 OOD 벤치마크에서 평균 성능 62.5%를 기록하며, 기존의 최고 베이스라인 모델보다 평균 4.7%의 성능 향상을 보였다.
- 이 결과는 SRFT가 데모 데이터를 자기 탐색과 결합하여 일반화 능력을 효과적으로 높일 수 있음을 보여준다.
훈련 동역학 분석(Training Dynamics)

SRFT는 RL 대비 더 빠른 성능 향상을 달성하였고, 점진적으로 더욱 자세한 응답을 생성하는 경향을 보였다.
엔트로피 측면에서 SRFT는 RL에 비해 안정적인 엔트로피를 유지하여 지속적인 탐색 능력을 보장하였다.

Ablation Study (제거 연구)

SRFT의 두 가지 핵심 엔트로피 기반 가중치 메커니즘( $w_{\text{SFT}}$ , $w_{\text{RL}}$ )의 효과를 평가하였다.
결과적으로 두 메커니즘을 제거한 경우 각각 성능이 크게 떨어졌으며(-4.0%, -2.9%), 이는 이 두 가지 메커니즘이 모두 SRFT의 성능에 중요한 기여를 하고 있음을 증명한다.
생각보다 이 weight가 성능차이에 큰 영향을 미치네

실험 결과 종합 평가

제안된 SRFT 방법론은 다양한 수학적 추론 과제와 일반화 과제에서 기존의 방법들을 능가하는 뛰어난 성능을 보여주었다.
SRFT가 가진 엔트로피 기반의 가중치 조정 메커니즘이 모델 학습의 안정성과 효율성, 그리고 탐색과 지식 전수의 균형 유지에 효과적임을 실험적으로 입증했다.
전체적으로, 실험 결과는 SRFT가 기존의 순차적 및 독립적 미세조정 방법들을 뛰어넘는 강력한 접근법임을 뒷받침한다.

6. 관련 연구 (RELATED WORK)

LLM 추론을 위한 강화 학습 (Reinforcement Learning for LLM Reasoning)

대형 언어모델(LLM)의 복잡한 추론 능력 향상을 위한 연구는 최근 많은 발전을 보이고 있으며, 특히 강화학습(RL)은 지도 미세조정(SFT)의 한계를 넘어서 추론 능력을 향상시키는 핵심 방법론으로 자리 잡고 있다. 최근 등장한 GRPO, DAPO, DR.GRPO, VAPO 등의 접근법은 수학적 추론 및 복잡한 문제 해결 과제에서 상당한 성능 향상을 달성하였다. 그러나 RL이 추론 능력을 구체적으로 어떤 메커니즘으로 향상시키는지에 대한 이해는 아직 완전하지 않다. 여러 경험적 연구들은 RL이 근본적으로 새로운 추론 능력을 처음부터 학습시키기보다는 기존의 모델 내에 이미 내재된 추론 능력을 정교화하거나 더 나은 탐색을 통해 끌어내는 역할을 주로 한다는 것을 시사한다. 그러나 지속적이고 안정적인 RL 훈련은 기존 모델이 완전히 실패한 작업에서 성공률을 높일 수 있다는 연구 결과도 존재하며(ProRL 등), 이는 RL 훈련이 LLM의 추론 능력 경계를 확장할 수 있음을 나타낸다. 본 연구에서는 SFT와 RL을 단일 단계로 결합하여 훈련 중 엔트로피를 안정적으로 유지하면서 성능 향상을 지속적으로 달성하는 방법을 설계하였다.

지도 미세조정과 강화학습의 통합 (Integrating Supervised Fine-Tuning and Reinforcement Learning)

지도 미세조정(SFT)과 강화학습(RL)의 상호작용은 현대 LLM 개발에서 중요한 연구 분야이다. 고품질의 추론 과정을 SFT를 통해 습득하면 강력한 초기 정책이 만들어지고, 이후 RL은 이 정책을 최적화한다. 최근 연구들은 SFT가 모델에 구조적 추론 템플릿을 제공하면 RL이 이를 검증하고 개선한다는 것을 시사한다. 그러나 이 두 가지 패러다임을 결합하는 최적의 전략은 아직도 논쟁 중이다. RL의 샘플 효율성을 높이고 탐색을 구조적으로 유도하기 위해 외부 감독(supervision)을 통합하는 다양한 방법들이 연구되었다.

예를 들어,

UFT는 SFT와 RL을 단일 과정으로 통합하고 부분적 해결책과 같은 유익한 감독 신호를 사용하여 탐색을 안내하고 수렴 속도를 높인다.
LUFFY는 오프 폴리시(off-policy) 추론 과정을 통합하여 RL 탐색을 개선하고,
ReLIFT는 RL 훈련 중 발생하는 어려운 문제를 해결하는 과정에서 SFT를 병행하여 RL만으로 습득하지 못하는 새로운 지식을 획득하도록 한다.
TAPO는 이전 샘플에서 추상화된 "사고 패턴(thought patterns)"을 활용하여 RL의 내부 탐색과 외부 전략 활용을 균형 있게 결합한다.
SASR은 SFT를 초기 웜업(warm-up)으로 사용한 후 온라인 RL 방법과 적응적으로 통합하여 고품질의 SFT 데모 데이터를 핵심 외부 데이터 소스로 활용하는 하이브리드 프레임워크를 제안한다.
또한, SFT와 RL의 단일 단계 통합 접근법은 SFT에서 RL로 전환할 때 발생하는 파국적 망각(catastrophic forgetting)을 완화하는 데에도 효과적이다.
이러한 접근법들은 RL 프레임워크 내에 보다 정교한 지도(supervised) 신호 통합을 통해 추론 성능과 정렬(alignment)을 개선하는 추세를 명확히 보여준다.

7. 결론 (CONCLUSION)

본 연구에서는 LLM 추론 능력 향상을 위한 지도 미세조정(SFT)과 강화 학습(RL)의 통합 방법을 연구하였다. 우리는 종합적인 분석을 통해, SFT는 조대하고 전역적인(coarse-grained global) 조정을 수행하는 반면, RL은 세밀하고 선택적인(fine-grained selective) 최적화를 수행하며, 엔트로피(entropy)가 이러한 훈련 과정에서 중요한 지표로 작용한다는 것을 밝혔다. 이 같은 관찰을 바탕으로, 우리는 엔트로피 인식 가중치 메커니즘(entropy-aware weighting mechanisms)을 통해 두 가지 패러다임을 통합하는 단일 단계 미세조정 방법인 SRFT를 제안하였다. 광범위한 실험 결과, SRFT는 평균 정확도 59.1%를 달성하며 기존의 RL을 사용하지 않은 방법 대비 수학적 추론 과제에서 9.0%, 분포 외(OOD) 벤치마크에서 10.9% 더 우수한 성능을 보였다.

한계점 (Limitations)

본 연구에서 제안한 엔트로피 기반 SFT-RL 단일 단계 통합 방식의 효과성이 입증되었으나, 현재 우리가 활용한 엔트로피 역학(entropy dynamics)의 활용 방식은 단순한 지수적 가중치(exponential weighting) 함수로 제한되어 있다. 훈련 과정 중 엔트로피가 보여주는 풍부한 시간적 패턴(temporal patterns)은 향후 더욱 정교한 엔트로피 기반 제어(entropy-based control) 메커니즘을 개발할 기회를 제공한다. 앞으로의 연구에서는 적응적 엔트로피 스케줄링(adaptive entropy scheduling)이나 다중 시간 스케일(multi-timescale)의 엔트로피 분석을 탐구하여 SFT와 RL 신호 간의 상호작용을 보다 정교하게 반영하고, 원칙적인 하이브리드 훈련 알고리즘을 개발할 가능성이 있다. 또한, 우리의 접근법은 고품질 데모 데이터가 존재함을 전제로 하고 있으며, 향후 불완전한(imperfect) 데모 데이터를 활용한 훈련 가능성에 대해서도 추가적인 연구가 필요하다.

Reference

https://arxiv.org/pdf/2506.19767

인공지능, AI, NLP, 논문 리뷰, Natural Language, Leetcode

AI Information

NL-290, SRFT: A Single-Stage Method with Supervised and Reinforcement Fine-Tuning for Reasoning, Preprint 2025