NL-321, ARR 202601
YNTP-100: A Benchmark for Your Next Token Prediction with 100 People
◼ Comment
- 요약
- 이 논문은 개인화 응답 생성을 사용자 상호작용 이력에 조건화된 다음 토큰 예측 문제(YNTP)로 정식화하고, 이를 평가하기 위한 다일·다언어 인간–에이전트 대화 벤치마크 YNTP-100을 제안한다.
- FSM 기반으로 수집된 100명의 연속 대화 데이터를 통해 사용자별 응답 행동을 통제된 조건에서 관찰할 수 있도록 설계하였다.
- 또한 내용과 스타일을 분리한 2S 평가 원칙을 도입하여, 다양한 프롬프팅 및 파인튜닝 기반 개인화 방법을 체계적으로 비교한다.
- 논문의 장점
- 이를 검증하기 위해 다일·다언어 인간–에이전트 대화 데이터셋인 YNTP-100을 구축하고 공개함으로써, 개인화 정렬(personalized alignment)을 체계적으로 비교·분석할 수 있는 공통 벤치마크를 제공한다.
- 또한 내용(Substance)과 스타일(Style)을 분리한 2S 평가 원칙을 도입하여, 단순한 의미 일치뿐 아니라 사용자 고유의 표현 방식까지 고려한 평가 프레임을 제안한다.
- 다양한 폐쇄형·오픈소스 LLM과 기존의 프롬프팅 및 파인튜닝 기반 개인화 방법들을 동일한 조건에서 실험함으로써, 현존 개인화 기법들의 성능 범위와 특성을 정리된 실험 결과로 제시한다.
- 논문의 단점
- 본 논문에서 제안한 스타일(Style) 평가 지표의 타당성에 대해 의문이 남는다. 길이 유사도, 타입–토큰 비율(TTR), 히스토리 유사도와 같은 지표는 표면적인 통계적 특성을 반영할 수는 있으나, 실제로 사용자의 페르소나나 표현 스타일을 충분히 포착하는지에 대해서는 설득력이 제한적이다.
- 이러한 자동 평가 지표의 한계를 보완하기 위해, 판별 모델(judge model) 기반 평가나 사람 평가(human evaluation) 를 함께 제공하였다면, 제안된 2S 평가 원칙과 각 스타일 지표에 대한 신뢰도를 더욱 높일 수 있었을 것으로 보인다.
- 표 2(Table 2)의 구성 방식은 가독성이 떨어진다. 현재는 방법론과 모델이 혼합된 형태로 나열되어 있어 비교가 어렵으며, 특정 모델을 고정한 상태에서 방법론 간 성능을 비교하거나, 혹은 방법론을 고정한 상태에서 모델 간 비교가 가능하도록 재구성하는 것이 더 명확했을 것이다.
- 실험 결과를 통해 논문이 궁극적으로 전달하고자 하는 메시지가 다소 불분명하다. 제시된 결과가 기존 LLM들이 이미 개인화 정렬 측면에서 어느 정도 잘 작동함을 보여주려는 것인지, 혹은 소량의 사용자 데이터를 제공하거나 간단한 튜닝만으로도 페르소나를 반영할 수 있음을 강조하려는 것인지가 명확히 드러나지 않는다.
- 제안
- 프롬프팅에 페르소나를 넣어서 향상되는 방법에 대한 레퍼런스 추천
Abstract
일반적인 다음 토큰 예측(next-token prediction)을 위해 학습된 대규모 언어 모델(LLM)은, 특정 개인이 실제로 사용하는 의사소통 방식이 반영된 응답을 생성하는 데 종종 실패한다. 개인화된 정렬(personalized alignment)에 대한 연구가 진행되어 왔지만, 개인정보 보호 제약으로 인해 실제 개인 커뮤니케이션 데이터를 수집하기 어렵다는 점이 이러한 진전을 제한해 왔다.
우리는 개인화된 응답 생성을 사용자 상호작용 이력에 조건화된 토큰 수준 예측 문제로 정식화한 Your Next Token Prediction (YNTP) 과제를 제안한다. 또한 100명의 사용자로부터 수집한 다언어·다일(多日) 인간–에이전트 대화를 기반으로 구축된 벤치마크인 YNTP-100을 소개한다. 이 데이터셋은 사용자별 응답 행동을 체계적으로 평가할 수 있도록 설계되었다.
본 연구에서는 외부 정렬 방법(파라미터를 유지하는 방식) 과 내부 정렬 방법(파라미터를 업데이트하는 방식) 을 모두 평가하며, 평가 지표로는 내용 유사성(substance similarity) 과 스타일 일관성(stylistic consistency) 을 사용한다. 데이터셋과 실험 결과는 공개되어 있다.
1. 서론 (Introduction)
대규모 언어 모델(LLM)은 다음 토큰 예측(next-token prediction)을 최적화하도록 학습되지만, 이메일이나 소셜 메시지와 같은 일상적인 환경에서 특정 개인이 실제로 사용하는 의사소통 방식을 반영한 응답을 생성하는 데에는 종종 실패한다. 최근 개인화된 정렬(personalized alignment)에 관한 연구가 진행되고 있지만, 기존의 정식화 방식은 사람들이 대인 커뮤니케이션(interpersonal communication) 과정에서 어떻게 응답하는지를 충분히 모델링하지 못하고 있다.
LaMP/LongLaMP(Salemi et al., 2023; Kumar et al., 2024), P-SOUPS(Jang et al., 2023), PRISM(Kirk et al., 2024) 등을 포함한 대부분의 기존 개인화 벤치마크는 개인화를 주로 과업 수준(task-level) 맞춤화로 개념화한다. 이들 벤치마크에서는 제목 생성, 초록 작성과 같은 작업에서 글쓰기 스타일이나 콘텐츠 선택과 같은 표면적 특성에 모델이 적응하는지를 평가한다. 그러나 이러한 접근은 이메일이나 소셜 미디어 메시지에 대한 답장과 같이, 응답이 시간에 따라 개인의 습관적인 어조와 의사소통 태도에 의해 형성되는 실제 커뮤니케이션의 순차적·상호작용적 특성을 추상화해 버린다. 그 결과, 기존 벤치마크는 모델이 특정 사람이 실제로 답변할 법한 방식으로 응답을 생성할 수 있는지를 평가하는 데 한계가 있다.
이와 같은 개인화된 응답 생성(personalized response generation)을 가능하게 하는 데에는 두 가지 주요한 도전 과제가 존재한다.
- 첫째, 개인정보 보호 및 윤리적 제약으로 인해 실제 SNS나 이메일 이력을 수집하는 것이 어렵다.
- 둘째, 대부분의 기존 벤치마크는 영어 중심으로 설계되어 있어, 언어와 문화 전반에 걸친 일반성을 확보하는 데 한계가 있다.
이러한 문제를 해결하기 위해, 우리는 Your Next Token Prediction (YNTP) 이라는 새로운 과제를 제안한다. YNTP는 개인화된 정렬을 보다 세밀한 예측 문제로 정식화한다. 즉, 주어진 대화 맥락에서 특정 개인이 어떻게 응답할지를 예측하는 것을 목표로 한다. YNTP-100은 100명의 참가자가 참여한 다언어·다일 인간–에이전트 대화를 기반으로 구축되었으며, 영어·일본어·중국어 각각 30명 이상의 사용자를 포함한다. 참가자들은 자연스러운 일상 커뮤니케이션을 유도하도록 설계된 통제된 상호작용 환경에서, LLM 기반 비플레이어 캐릭터(NPC)와 5일 동안 대화를 수행한다.
이 NPC들은 심리적으로 동기화된 설정을 가지며, 구조화된 유한 상태 기계(Finite-State Machine, FSM)를 따른다. 이러한 설계는 외향성(extraversion)이나 직관(intuition)과 같은 사용자 특성을 목표로 하면서도, 상호작용 전반에 걸쳐 일관성을 유지할 수 있도록 한다. 여러 날에 걸쳐 다양한 대화 맥락에서 사용자를 관찰함으로써, YNTP의 목표는 언어적 선택, 감정적 경향, 의사결정 행동 등 개인의 내재적 응답 패턴이 시간에 따라 어떻게 나타나는지를 포착하는 데 있다. 벤치마크 과제는 앞선 상호작용 이력을 바탕으로 마지막 날의 사용자 응답을 예측하는 것으로, 모델이 연속성, 적응성, 그리고 개인적 일관성을 얼마나 잘 포착하는지를 평가할 수 있는 시험대를 제공한다.
=> 조금 이해가 안되는 문단이기는 함
우리는 YNTP를 대상으로 외부 정렬 방법(파라미터를 유지하는 방식) 과 내부 정렬 방법(파라미터를 업데이트하는 방식) 을 모두 평가하며, 이 과제에 대한 최초의 정량적 기준선을 제시한다. 평가를 위해, 기존의 일반 정렬 패러다임인 3H(Helpful, Harmless, Honest)를 채택하는 대신, 개인화된 응답을 두 가지 핵심 차원으로 특징짓는 2S 원칙을 도입한다. 이는 내용(Substance, 무엇을 말하는가) 과 스타일(Style, 어떻게 말하는가) 이다. 이 원칙은 개인화 정렬의 핵심 요구를 반영하며, 모델은 입력 메시지에 의미적으로 적절한 응답을 생성하는 동시에, 특정 사용자가 평소에 사용하는 의사소통 방식과 일관된 형태로 이를 표현해야 한다.
종합적으로, YNTP는 LLM을 일반적인 커뮤니케이터에서 벗어나, 보다 일관되고 사용자에 정렬된 상호작용 행위자로 발전시키기 위한 “정렬의 마지막 단계(last mile)”를 향한 한 걸음을 제시한다.
2. 관련 연구 (Related Work)
2.1 개인화 정렬 데이터셋 (Personalized Alignment Datasets)
가장 널리 사용되는 개인화 벤치마크는 LaMP 계열(Salemi et al., 2023)로, 논문 제목 생성, 이메일 재작성 등과 같은 여러 개인화 과제를 사용자 이력에 조건화하여 통합적으로 다룬다. LongLaMP(Kumar et al., 2024)는 이 프레임워크를 장문 생성 과제로 확장하여, 리뷰나 블로그 게시글과 같은 텍스트 생성을 포함한다. 이러한 벤치마크들은 평가 방식을 표준화하고 사용자 이력의 역할을 강조하지만, 주로 사용자가 어떤 콘텐츠를 선택하는지에 초점을 맞출 뿐, 대인 커뮤니케이션에서 실제로 어떻게 상호작용하는지를 모델링하지는 않는다.
LaMP 외에도, P-SOUPS(Jang et al., 2023)와 PRISM(Kirk et al., 2024)은 사용자 프로필이나 스타일 메타데이터를 활용하여 여러 도메인과 대화 설정 전반에서 개인화를 탐구한다. 최근의 데이터셋인 PersonalLLM(Zollo et al., 2024)과 PERSONA(Castricato et al., 2024)는 페르소나 일관성을 유지한 생성을 위해 명시적인 사용자 표현을 사용하는 방식을 추가로 연구한다. 전반적으로 이러한 데이터셋들은 과업 지향적 환경에서 사용자별 글쓰기 스타일과 행동 패턴을 모델링하는 데 초점을 둔다.
또 다른 연구 흐름은 명시적인 사용자 정체성 대신 선호(preference) 신호를 통해 정렬을 연구한다. FLASK(Ye et al., 2023b), REGEN(Sayana et al., 2025), ALOE(Wu et al., 2024), PREFEVAL(Zhao et al., 2025)과 같은 데이터셋들은 인간 또는 모델 기반 피드백을 수집하여 정렬을 유도하며, 주로 RLHF 또는 유사한 패러다임의 맥락에서 사용된다. 이러한 접근은 일반적인 정렬 품질을 향상시키는 데에는 효과적이지만, 개인별 응답 모델링보다는 집단 수준의 선호를 목표로 한다. 이러한 데이터셋들의 요약은 부록 A의 표 4에 제시되어 있다.
2.2 개인화 정렬 방법 (Personalized Alignment Methods)
기존 개인화 접근법은 크게 두 가지 패러다임으로 분류할 수 있다. 하나는 외부 정렬(external, 파라미터 유지) 방식이고, 다른 하나는 내부 정렬(internal, 파라미터 업데이트) 방식이다.
외부 정렬 방법은 LLM의 파라미터를 고정한 채, 추론 시점에 사용자 정보를 주입하는 방식이다. 프롬프트 기반 접근법은 사용자 이력이나 요약 정보를 입력에 직접 포함시키는 방식이며(Christakopoulou et al., 2023; Richardson et al., 2023; Tang et al., 2024), 검색 기반 생성(Retrieval-Augmented Generation, RAG)은 사용자별 문서나 이전 상호작용을 문맥 내 예시로 검색하여 활용하는 방식으로 이를 확장한다(Salemi et al., 2023). 일부 연구는 최적화된 검색 전략을 통해 이러한 접근을 개선하기도 한다(Salemi et al., 2024). 또 다른 접근으로는 사용자 임베딩이나 구조화된 프로필을 통해 페르소나 조건부 추론을 수행하는 방식이 있다(Liu et al., 2024). 최근에는 모델 재학습이나 개인 데이터에 대한 직접 접근 없이도 확장 가능한 개인화를 가능하게 하기 위해, 디코딩 과정이나 잠재 활성값(latent activations)을 조절하여 사용자 특성을 반영하는 기법들이 제안되고 있다.
내부 정렬 방법은 사용자별 행동을 포착하기 위해 모델 파라미터 자체를 직접 적응시키는 방식이다. LoRA나 프리픽스 튜닝(prefix-tuning)과 같은 파라미터 효율적 미세조정(Parameter-Efficient Fine-Tuning, PEFT) 기법은 계산 비용을 줄이기 위해 소수의 파라미터만 업데이트한다(Hu et al., 2022; Fine-tuning). 개인화된 RLHF(Personalized RLHF, P-RLHF)(Li et al., 2024)는 사용자 수준의 피드백을 활용하여 모델을 정렬함으로써, 추가적인 데이터 수집 비용을 감수하는 대신 보다 세밀한 개인화를 가능하게 한다.
보완적인 방향으로, Aligner(Ji et al., 2024)는 기본 모델 파라미터를 수정하지 않고, 초기 모델 출력 결과를 사용자별 언어적·스타일적 패턴에 맞게 재작성하는 사후 정렬(post-hoc alignment) 모듈을 적용한다. 최근의 추론 단계 기반 변형 기법들로는 PAD(Chen et al., 2024)와 CHAMELEON(Nguyen et al., 2025)이 있으며, 이들은 개인화된 보상을 사용해 토큰 확률이나 잠재 활성값을 조절함으로써, 가볍지만 효과적인 적응을 가능하게 한다.
3 YNTP-100 벤치마크 (YNTP-100 Benchmark)
3.1 과제 정식화 (Task Formulation)
우리는 YNTP(Your Next Token Prediction) 를 개인화된 응답 생성 과제로 정의한다. 즉, 입력 메시지 (x)가 주어졌을 때, 특정 사용자 (u) 가 어떻게 응답할지를 토큰 수준에서 예측하는 것을 목표로 한다.
사용자 (u)가 작성한 응답을
$[
y^u = (y^u_1, \ldots, y^u_m)
]$
라고 하자. 모델은 입력 메시지와 사용자 맥락 (U_u)에 조건화된 개인화 응답 (\hat{y}^u)를 생성한다. 여기서 사용자 맥락 (U_u)는 선택적인 사용자 프로필 정보 (p_u)와 상호작용 이력 (H_u)로 구성된다.
$[
U_u = (p_u, H_u)
]$
사용자 조건부 생성 목표는 다음과 같은 자기회귀(autoregressive) 형태를 따른다:
$[
P_\theta(\hat{y}^u \mid x, U_u)
= \prod_{t=1}^{m} P_\theta(\hat{y}^u_t \mid \hat{y}^u_{<t}, x, U_u),
]$
여기서 (\theta)는 모델 파라미터를 나타낸다. 표준적인 다음 토큰 예측과 비교하면, YNTP는 생성 과정에서 사용자별 맥락에 명시적으로 조건화된다는 점에서 차이가 있으며, 이를 통해 개인화된 응답 행동을 평가할 수 있게 된다.
학습 목표 (Learning Objective)
사용자별 대화 인스턴스로 구성된 데이터셋
$[
\mathcal{D} = {(x_i, y^u_i, U^u_i)}_{i=1}^{N}
]$
이 주어졌을 때, 모델은 토큰 수준의 음의 로그우도(negative log-likelihood)를 최소화하도록 학습된다:
$[\min_{\theta}; -\mathbb{E}{(x, y^u, U_u)\sim \mathcal{D}} \left[\sum{t=1}^{|y^u|} \log _\theta(y^u_t \mid y^u_{<t}, x, U_u) \right].]$
이 학습 목표는 모델이 단순히 일반적인 응답을 생성하는 것이 아니라, 사용자별 토큰 분포를 재현할 수 있는지를 평가하도록 설계되었다.
“사용자 의 과거 대화 이력 와 현재 질문 를 참고해서, 이미 생성한 토큰들()을 기반으로 다음 토큰 를 하나씩 예측한다.”3.2 인간–에이전트 대화 시스템 (Human–Agent Dialogue System)
YNTP-100 벤치마크를 구축하기 위해, 우리는 LLM 기반 인간–에이전트 대화 시스템을 사용하여 여러 날에 걸친 대화 데이터를 수집한다. 사용자들은 공유된 대화 환경 내에서 여러 명의 비플레이어 캐릭터(NPC)와 상호작용하며, 이 과정에서 메시지–응답 쌍 ($(x, y^u)$)과 사용자 맥락 메타데이터 ($U_u$)가 함께 생성된다.
대화의 진행은 경량 유한 상태 기계(lightweight finite-state machine, FSM) 에 의해 제어된다.
- 그림 1에 나타난 바와 같이, FSM의 각 상태는 NPC가 제시하는 사전에 정의된 하나의 대화 질문에 대응된다.
- 예를 들어, 상태 (질문) 1에서는 NPC가 개방형 질문을 제시한다(예: 사용자가 큰 금액의 돈을 어떻게 사용할지에 대한 질문).
- 만약 사용자의 응답이 불완전하거나 추가적인 설명을 요구하는 경우, FSM의 전이 함수는 대화를 현재 상태에 유지하고 후속 질문을 유도한다.
- 사용자의 응답이 기본적인 관련성이나 충분성 기준을 충족하면, 대화는 상태 (질문) 2로 전이되며, 이 상태에서는 다른 NPC가 보다 구체적이면서도 연관된 질문을 제시한다.
- 이러한 메커니즘은 자연스러운 다중 턴 대화 흐름을 유지하면서도, 통제된 조건 하에서 비교 가능한 응답을 유도할 수 있도록 한다.
그림 2는 데이터 수집 과정에서 사용된 대화 인터페이스를 보여준다.
- 이 인터페이스는 공유 주거 공간 환경과 상태 패널을 제공하여, 여러 대화 스레드에 걸친 사용자–NPC 상호작용을 시각화한다.
- 이 인터페이스의 목적은 특정 행동을 강제하는 것이 아니라, 여러 날에 걸친 세션 동안 일관되고 몰입감 있는 상호작용을 촉진하는 데 있다.
대화 질문에 구조적인 변화를 도입하기 위해, FSM의 각 상태에는 MBTI(Myers–Briggs Type Indicator) 분류 체계에서 영감을 받은 거친 성격 관련 레이블이 부여된다. 이러한 레이블은 질문을 조직하고 다양한 대화 상황을 고르게 포함하기 위한 해석 가능한 분류 체계로만 사용되며, 심리학적 타당성이나 고정된 사용자 특성, 혹은 명시적인 성격 분류를 가정하지 않는다. FSM의 상태 전이는 오직 응답의 관련성이나 충분성에만 의존하며, 사용자 간 데이터 수집의 일관성을 보장한다.
YNTP-100에서 사용된 인간–에이전트 대화 수집 과정은 모든 사용자가 동일한 FSM 초기 상태에서 시작하여, 사전에 정의된 질문 흐름을 따라 NPC와 상호작용하도록 설계된 통제된 대화 절차이다. 각 FSM 상태는 하나의 고정된 질문에 대응하며, 첫 질문은 사용자 간에 동일하다. 이후 사용자의 응답은 의미 분석이나 성향 추론 없이, 오직 질문에 대한 관련성과 충분성만을 판단하는 경량 체크 함수로 평가된다. 응답이 불충분하거나 회피적일 경우에는 동일한 상태에 머무르며 추가 설명을 요청하고, 최소 기준을 충족하면 다음 상태로 전이된다. 이 과정에서 새로운 질문을 의미적으로 선택하거나 대체하지 않으며, 질문의 내용은 유지한 채 요구 수준만 조정한다. 이러한 FSM 기반 설계는 대화의 자연스러움을 극대화하기보다는, 모든 사용자에게 유사한 질문 조건을 제공함으로써 응답 차이가 질문의 차이가 아니라 개인 고유의 반응 패턴 차이에서 비롯되도록 보장하는 것을 목표로 한다.
3.3 데이터 수집 및 벤치마크 구성
각 상호작용은 하나의 대화 인스턴스 ($(x, y^u)$)를 생성하며, 여기서 (x)는 NPC의 메시지, ($y^u$)는 사용자 (u)의 응답을 의미한다. 각 인스턴스에는 대화가 이루어진 날짜 인덱스, NPC의 정체성, 그리고 FSM 상태를 포함하는 메타데이터가 함께 주석으로 기록된다. 모든 대화는 순서가 보존된 메시지–응답 쌍의 형태로 구조화된 JSON 형식으로 저장된다.
벤치마크 구성을 위해, 우리는 각 사용자에 대해 처음 4일간의 상호작용을 학습 데이터로 사용하여 사용자별 행동을 모델링하고, 5일째의 상호작용을 평가용 테스트 데이터로 분리한다.
- 평가 단계에서 모델은 5일째에 제시된 메시지에 대해 응답을 생성하며, 이 생성된 응답은 해당 사용자가 실제로 작성한 응답과 비교되어 개인화 정렬 성능을 측정하는 데 사용된다.
이 벤치마크는 동일한 수집 프로토콜 하에서 구축된 세 개의 다언어 데이터셋으로 구성된다. 구체적으로는 영어 사용자 34명, 중국어 사용자 33명, 일본어 사용자 33명으로 이루어져 있다. 이러한 설계는 상호작용 구조와 데이터 가용성을 통제한 상태에서, 언어 간 개인화 성능을 평가할 수 있도록 한다. 참가자 절차, 모집 방식, 보상, 데이터 동의에 관한 추가적인 세부 사항은 부록 B에 제시되어 있다.
4 실험 설정 (EXPERIMENTS SETUP)
우리는 100명의 사용자로부터 수집된 데이터셋을 기반으로, 다양한 개인화 정렬(personalized alignment) 방법과 언어 모델(LLM)의 효과성을 평가하였다.
4.1 기준선 방법 (Baseline Methods)
우리는 개인화 정렬을 위한 대표적인 전략들을 비교하며, 외부 정렬(external, 파라미터 유지) 과 내부 정렬(internal, 파라미터 업데이트) 방법을 모두 포괄한다.
프롬프트 엔지니어링(제로샷) (Prompt Engineering (Zero-shot)) (Radford et al., 2019)은 간단한 사용자 설명(예: 프로필 단서)에 조건화하여, 과거 예시를 제공하지 않은 채로 응답을 생성하는 방식이며, 최소 수준의 개인화 기준선으로 사용된다.
프롬프트 엔지니어링(퓨샷) (Prompt Engineering (Few-shot)) (Brown et al., 2020)은 사용자의 이전 상호작용에서 가져온 데모(예시) 쌍을 프롬프트에 추가하여, 모델이 과거 응답에서 관찰된 사용자 고유의 패턴에 근거해 응답을 생성하도록 한다.
체인-오브-쏘트(CoT) (Chain-of-Thought (CoT)) (Wei et al., 2022)은 최종 응답을 생성하기 전에 명시적인 중간 추론을 수행하도록 모델을 유도하며, 개인화 응답 생성을 위한 추론 기반 프롬프팅 기준선을 제공한다.
파인튜닝: SFT / PEFT(LoRA) (Fine-Tuning: SFT/ PEFT (LoRA)) (Ouyang et al., 2022; Hu et al., 2022)은 두 가지 실용적 설정에서 파라미터 업데이트 기반 개인화를 평가한다. 폐쇄형 모델(예: GPT 스타일 API)의 경우, 전체 모델 파인튜닝이 지원될 때 SFT를 적용한다. 오픈소스 모델(예: Llama 및 Qwen 계열)의 경우, 사용자별 데이터로 소수의 저랭크 어댑터(low-rank adapters)만 업데이트하는 PEFT(LoRA)를 적용한다.
직접 선호 최적화(DPO) (Direct Preference Optimization (DPO)) (Rafailov et al., 2023)은 개인화된 출력이 일반적인 출력보다 더 선호되도록 모델을 학습시키며, 후보 응답 쌍 위에서 정의되는 선호 기반 목적함수를 사용한다.
Aligner (Ji et al., 2024)는 초기 모델 출력에 대해, 사용자 고유의 언어적·스타일적 패턴과의 일관성을 개선하도록 출력을 재작성(rewrite)하는 사후(post-hoc) 정렬 모듈을 적용하며, 기본 모델 파라미터는 수정하지 않는다.
재현 가능성을 위해, 각 방법에 사용된 정확한 프롬프트와 하이퍼파라미터는 부록 E에 보고되어 있다.
4.2 언어 모델 (Language Models)
우리는 폐쇄형(closed-source) 언어 모델과 오픈소스(open-source) 언어 모델을 모두 평가한다.
폐쇄형 모델로는 강력한 지시 따르기 능력과 추론 성능을 제공하는 gpt-3.5-turbo(Ye et al., 2023a), gpt-4o-mini(Hurst et al., 2024), gemini-2.5-flash(Comanici et al., 2025), claude-sonnet-4-0(Koyun and Taskent, 2025)을 포함한다.
오픈소스 모델로는 DeepSeek-R1-Distill-Qwen-14B(Guo et al., 2025), Qwen3-14B(Yang et al., 2025), Llama-3.1-8B-Instruct(Grattafiori et al., 2024)을 포함한다.
일본어 특화 평가를 위해, 우리는 추가로 Llama-3-ELYZA-JP-8B(Hirakawa et al., 2024)을 포함한다.
4.3 평가 지표 (Evaluation Metrics)
일반적인 정렬 평가에서 사용되는 3H 원칙(Helpful, Harmless, Honest)과 달리, YNTP 과제에서는 개인화된 응답 생성을 두 가지 핵심 차원으로 특징짓는 2S 원칙을 제안한다. 이 두 차원은 내용(Substance) 과 스타일(Style) 이다. 이 원칙은 개인화 정렬의 핵심 요구 사항을 반영하는데, 모델은 입력 메시지에 대해 의미적으로 적절한 응답을 생성하는 동시에, 특정 사용자가 평소에 사용하는 의사소통 방식과 일관된 형태로 이를 표현해야 한다.
실제로 각 차원은 다양한 지표를 사용해 측정될 수 있다. 본 논문에서는 각 차원에 대해 대표적인 세 가지 지표를 선택하였다. 평가에 사용된 총 여섯 개의 지표는 표 1에 요약되어 있다. 각 지표의 상세한 수식 정의는 부록 C에 제시되어 있다.
내용(Substance) 지표
M1: 워드 무버 거리(Word Mover’s Distance)
단어 임베딩 간의 최소 이동 거리(minimal transport distance)를 사용하여, 생성된 응답과 참조 응답 간의 의미적 비유사도를 측정한다. 값이 낮을수록 의미적 정렬이 더 가깝다.M2: 문장 유사도(Sentence Similarity)
문장 임베딩 간의 코사인 유사도를 사용하여, 문장 수준에서의 전체적인 의미적 근접성을 측정한다.M3: BLEU (내용 유사도)
표면적 수준의 내용 중복을 평가하기 위해, 간결성 패널티를 포함한 n-그램 정밀도를 사용한다.
스타일(Style) 지표
M4: 정규화된 길이 유사도(Normalized Length Similarity)
응답 길이의 일치 정도를 측정하기 위해, 더 짧은 응답 길이를 더 긴 응답 길이로 나눈 비율을 사용한다.M5: 타입–토큰 비율(Type–Token Ratio, TTR)
응답 내 고유 토큰의 비율을 계산하여 어휘적 풍부함을 측정한다.M6: 히스토리 유사도(History Similarity)
생성된 응답과 사용자의 과거 응답들 간의 임베딩 기반 유사도를 계산하여, 장기적인 스타일 일관성을 측정한다.
스타일 지표가 좀 약한거 같은데...? 이걸로 스타일을 잡을 수 있는건지? judge 모델을 쓰는게 어떤지
5 결과 및 분석 (Results and Analysis)
5.1 전체 분석 (Overall Analysis)
각 정렬 방법–언어 모델 조합에 대해, 우리는 100명의 모든 사용자에 대해 개인화 정렬 성능을 개별적으로 평가하고, 사용자 단위로 계산된 지표 점수를 집계하였다. 이후 각 언어 그룹 내에서 사용자별 점수를 평균하여 결과를 산출하였다. 정규화되지 않은 원본 점수는 부록 D의 표 5에 보고되어 있다.
서로 다른 평가 지표 간의 공정한 비교를 가능하게 하기 위해, 우리는 각 지표에 대해 z-점수 정규화(z-score normalization)를 적용하였다(자세한 내용은 부록 D 참조). M1부터 M6까지의 정규화된 결과는 표 2에 요약되어 있으며, 각 셀은 해당 지표의 z-점수를 나타낸다. 모든 점수는 각 언어 그룹(영어: 33명, 중국어: 34명, 일본어: 33명)에 속한 참가자들에 대해 매크로 평균되었다. 이러한 정규화된 결과를 바탕으로 도출된 주요 관찰 결과는 다음과 같다.
고급 정렬 방법들은 모든 언어 환경에서 제로샷 기준선보다 전반적으로 우수한 성능을 보인다. 표 2의 결과에서 확인할 수 있듯이, 프롬프트 엔지니어링(제로샷)은 기능적인 기준선 역할은 수행하지만, 중국어와 일본어에서는 BLEU(M3)와 길이 유사도(M4)와 같은 핵심 지표에서 일관되게 음의 z-점수를 기록한다. 반면, 체인-오브-쏘트(CoT)나 파인튜닝과 같은 방법들은 성능 분포를 유의미하게 양의 영역으로 이동시키며, 이는 명시적인 추론 단계와 과제 특화 최적화가 페르소나 일관성과 언어적 품질을 평균 이상 수준으로 끌어올리는 데 필수적임을 시사한다.
테이블2가 보기힘듬. 모델을 기준으로 방법론간의 비교를 해야하는것 아닌가? 모델의 변화까지 포함해서 좋고 나쁨을 따지면 눈에 안들어옴
퓨샷 프롬프팅은 제로샷 대비 특히 언어 간 내용 및 스타일 일치 측면에서 큰 성능 향상을 제공한다. 제로샷에서 프롬프트 엔지니어링(퓨샷)으로 전환할 경우 BLEU(M3) 점수가 크게 증가하는데, 예를 들어 영어 환경에서 Gemini-2.5-flash는 −1.188에서 강조 표시된 1.557로 향상된다. 이는 소수의 맥락이 풍부한 예시만 제공하더라도 모델이 정확한 언어 간 페르소나 모사를 위해 필요한 내용(Substance, M1–M3)을 더 잘 포착할 수 있음을 의미하며, 모델 출력을 목표 분포에 효과적으로 고정시켜 준다는 것을 보여준다.
프롬프팅에 페르소나 넣어서 향상되는건 레퍼런스들이 존재
체인-오브-쏘트(CoT)는 동아시아 언어에서 고품질 추론과 히스토리 유사도를 유지하는 데 가장 강건한 방법으로 나타난다. 중국어와 일본어 결과에서 CoT는 다수의 지표에 걸쳐 일관되게 상위 3위 안에 위치한다. 특히 Gemini-2.5-flash와 Claude-sonnet-4-0는 이 설정 하에서 일본어 M3 및 M4 점수에서 최고 성능을 기록한다. 이러한 결과는 CoT에 내재된 중간 추론 단계가 중국어와 일본어의 구문적·문화적 복잡성을 처리하는 데 중요하며, 그 결과 스타일(Style, M4–M6) 지표에서 우수한 성능을 달성하게 됨을 시사한다.
파인튜닝은 구조적 지표와 언어적 다양성을 최적화하는 데 가장 우수한 방법으로 나타난다. 일본어 데이터셋에서 파인튜닝은 길이 유사도(M4)와 타입–토큰 비율(M5) 지표를 지배하며, Llama-3-ELYZA-JP-8B와 gpt-3.5-turbo는 여러 지표에서 ‘최고’ 및 ‘차상위’ 성능을 기록한다. 특히 gpt-3.5-turbo의 높은 M5 점수(예: 1.587)는 파인튜닝된 모델이 프롬프트 기반 방법에서 흔히 나타나는 반복적이거나 과도하게 표준화된 표현에서 벗어나, 보다 다양하고 정교한 어휘를 생성함을 보여준다.
DPO와 Aligner 방법은 스타일 일관성 측면에서 일관되지 않은 결과를 보인다. DPO는 Llama-3.1-8B-Instruct가 영어 M1 지표에서 차상위 점수(0.385)를 달성하는 등 일부 모델에서는 도움을 주지만, 전반적으로 스타일 유지에는 어려움을 겪는다. 반면 Aligner 방법은 다수의 지표에서 성능이 크게 저하되며, 예를 들어 영어 M6 지표에서 Qwen3-14B는 −3.494라는 매우 낮은 z-점수를 기록한다. 이는 기저 추론이나 충분한 맥락 없이 수행되는 사후 정렬 방식이 페르소나의 고유한 특성을 약화시키고, 언어적으로는 안전하지만 스타일적으로는 무미건조한 출력을 생성할 수 있음을 시사한다.
그래서 전체적으로 말하고자 하는 것이 뭔지? 그냥 베이스라인들 분석해 본 것인가?
5.2 내용(Substance)과 스타일(Style)의 군집(클러스터링) 분석
내용(Substance)과 스타일(Style) 관점에서 전반적인 성능을 분석하기 위해, 우리는 내용(Substance) 을 지표 M1, M2, M3의 z-점수 합으로 정의하고, 스타일(Style) 을 지표 M4, M5, M6의 z-점수 합으로 정의한다. 이 두 차원에 기반하여, 모델들을 Type I, Type II, Type III 군집으로 분류하는 작업은 K-Means 클러스터링 알고리즘을 사용하여 수행된다. 그림 3에 시각화된 바와 같이, 이 알고리즘은 유클리드 거리(Euclidean distance)에 기반해 데이터를 세 영역으로 분할한다: Type III(최적 성능, 오른쪽 위), Type II(기준선 성능, 중앙), Type I(낮은 충실도의 결과, 왼쪽 아래). 주요 관찰 결과는 다음과 같다.
세 언어 전반에 걸친 실험 결과는, 낮은 충실도의 군집에서 높은 성능의 페르소나 모사로 이어지는 명확한 층화된(stratified) 진행을 보여준다. 산점도에서 확인할 수 있듯이, 모델과 방법들은 일반적으로 세 개의 구분되는 구역으로 모인다: Type I(내용 낮음, 스타일 낮음), Type II(기준선 성능), Type III(최적 정렬). 이러한 시각화는 내용(M1–M3)과 스타일(M4–M6)의 결합이 균일하게 나타나는 것이 아니라, 정렬 복잡성이 증가함에 따라 예측 가능한 개선 궤적을 따른다는 점을 확인해 준다.
Type III 군집은 최신 최고 성능(state-of-the-art)의 경계를 나타내며, 영어·중국어·일본어 전반에서 체인-오브-쏘트(CoT) 와 파인튜닝(Fine-tuning) 이 이를 지배한다. 세 개의 서브플롯 모두에서, Type III 영역(초록색 점선 원으로 표시됨)은 특히 CoT 및 파인튜닝 방법에서 양의 z-점수의 가장 높은 밀도를 포함한다. 이 군집화 결과는 이러한 기법들이 언어적 정확성과 스타일 기반 페르소나 일관성을 동시에 최적화할 수 있는 독특한 능력을 가지며, 모델들을 성능 공간의 오른쪽 위 사분면으로 밀어 올린다는 점을 시사한다.
영어와 동아시아 언어 사이에서 Type I 및 Type II 군집 분포에는 뚜렷한 언어적 격차가 관찰된다. 영어 결과는 Type II 및 Type III 영역에 더 조밀하게 집중되는 반면, 중국어와 일본어 플롯은 Type I 범주(주황색 점선 원으로 표시됨)로 떨어지는 모델들의 더 두드러진 “꼬리(tail)”를 보인다. 이는 많은 기준선 방법들, 특히 Aligner 및 일부 프롬프트 엔지니어링(제로샷) 설정이 동아시아 페르소나의 스타일적 뉘앙스를 포착하는 데 훨씬 더 크게 어려움을 겪으며, 그 결과 언어 간 성능 분산이 더 커진다는 점을 나타낸다.
모델별 군집은 Gemini-2.5-flash와 gpt-4o-mini 같은 상용(proprietary) 모델들이 언어가 바뀌어도 더 우수한 스타일 안정성을 유지함을 보여준다. 기반 언어가 달라지더라도, 이들 특정 모델(초록색 및 분홍색 원으로 표시됨)은 Type III 군집 내 또는 그 근처에 일관되게 위치한다. 이는 고파라미터 모델들의 내부 정렬(internal alignment)이 충분히 강건하여, “내용(Substance)”이 번역 및 언어 간 문화적 변화의 복잡성에 영향을 받는 상황에서도 페르소나의 “스타일(Style)”을 유지할 수 있음을 시사한다.
Type II에서 Type III로의 전환은 가장 자주 제로샷에서 퓨샷 및 추론 기반 방법론으로의 이동에 의해 촉발된다. 군집 도표는 프롬프트 엔지니어링(퓨샷) 데이터 포인트(별 모양 마커)가 일반적으로 기준선 성능과 고충실도 출력 사이의 “다리(bridge)” 역할을 수행함을 보여준다. 구체적인 예시를 제공하는 것만으로도 모델은 분산된 Type II 영역에서 조밀한 Type III 영역으로 이동하게 되며, 이는 문맥(context)과 추론(reasoning)이 언어 간 페르소나 모사를 성공시키는 핵심 동인임을 강조한다.
5.3 리더보드 분석 (Leaderboard Analysis)
서로 다른 모델 아키텍처 전반에서 다양한 정렬 전략의 효과를 비교하기 위해, 우리는 내용(Substance), 스타일(Style), 그리고 종합 성능(overall performance) 에 따라 정렬된 모델 구성들의 리더보드를 분석한다. 주요 관찰 결과는 다음과 같다.
고급 정렬 방법, 특히 파인튜닝(Fine-tuning) 과 체인-오브-쏘트(CoT) 는 리더보드 상위권을 지배하며, 제로샷 기준선을 일관되게 능가한다. 표 3에 나타난 바와 같이, 상위 3개 구성은 모두 이러한 방법론에 의해 차지되었으며, gpt-4o-mini (파인튜닝) 와 gemini-2.5-flash (CoT) 는 각각 1.10과 1.02의 최고 종합 z-점수를 기록하였다. 이는 명시적인 스타일 최적화 또는 구조화된 추론 단계가 언어 간 맥락에서 고충실도의 페르소나 모사를 달성하기 위한 필수 조건임을 시사한다.
상위권 상용(proprietary) 모델들은 오픈 웨이트(open-weight) 모델들에 비해 내용과 스타일 간의 균형 잡힌 절충(trade-off) 을 더 잘 달성한다. 예를 들어, gemini-2.5-flash 와 claude-sonnet-4-0 는 두 차원에서 모두 유사한 성능을 보이며(예: gemini-2.5-flash + CoT의 경우, 내용 1.03, 스타일 1.00), 일관된 균형을 유지한다. 반면, 일부 오픈 웨이트 모델은 스타일 편향(style bias)을 보이는데, 예를 들어 Llama-3-ELYZA-JP-8B (파인튜닝) 는 스타일 지표에서 1위(1.17)를 기록했지만, 내용 지표에서는 상대적으로 낮은 점수(0.61)를 보인다.
gpt-4o-mini 와 gemini-2.5-flash 는 서로 다른 정렬 기법 전반에서 가장 높은 범용성(versatility)을 보이는 모델로 나타난다. gpt-4o-mini는 파인튜닝, CoT, 퓨샷, 제로샷의 네 가지 서로 다른 방법으로 리더보드 상위 20위에 포함되었으며, gemini-2.5-flash는 상위 4개 구성 중 두 자리를 차지한다. 이는 이러한 모델들이 프롬프트 기반 방식이든 파라미터 효율적 튜닝 전략이든 관계없이, 언어 간 과제에서 높은 성능을 유지할 수 있는 강건한 기반 아키텍처임을 강조한다.
추가적으로, 우리는 부록 F에서 몇 가지 상세한 사례 연구(case study)를 보고한다.
댓글
댓글 쓰기