NL-321, ARR 202601
YNTP-100: A Benchmark for Your Next Token Prediction with 100 People ◼ Comment 요약 이 논문은 개인화 응답 생성을 사용자 상호작용 이력에 조건화된 다음 토큰 예측 문제(YNTP)로 정식화하고, 이를 평가하기 위한 다일·다언어 인간–에이전트 대화 벤치마크 YNTP-100을 제안한다. FSM 기반으로 수집된 100명의 연속 대화 데이터를 통해 사용자별 응답 행동을 통제된 조건에서 관찰할 수 있도록 설계하였다. 또한 내용과 스타일을 분리한 2S 평가 원칙을 도입하여, 다양한 프롬프팅 및 파인튜닝 기반 개인화 방법을 체계적으로 비교한다. 논문의 장점 이를 검증하기 위해 다일·다언어 인간–에이전트 대화 데이터셋인 YNTP-100을 구축하고 공개함으로써, 개인화 정렬(personalized alignment)을 체계적으로 비교·분석할 수 있는 공통 벤치마크를 제공한다. 또한 내용(Substance)과 스타일(Style)을 분리한 2S 평가 원칙을 도입하여, 단순한 의미 일치뿐 아니라 사용자 고유의 표현 방식까지 고려한 평가 프레임을 제안한다. 다양한 폐쇄형·오픈소스 LLM과 기존의 프롬프팅 및 파인튜닝 기반 개인화 방법들을 동일한 조건에서 실험함으로써, 현존 개인화 기법들의 성능 범위와 특성을 정리된 실험 결과로 제시한다. 논문의 단점 본 논문에서 제안한 스타일(Style) 평가 지표의 타당성에 대해 의문이 남는다. 길이 유사도, 타입–토큰 비율(TTR), 히스토리 유사도와 같은 지표는 표면적인 통계적 특성을 반영할 수는 있으나, 실제로 사용자의 페르소나나 표현 스타일을 충분히 포착하는지에 대해서는 설득력이 제한적이다. 이러한 자동 평가 지표의 한계를 보완하기 위해, 판별 모델(judge model) 기반 평가나 사람 평가(human evaluation) 를 함께 제공하였다면, 제안된 2S 평가 원칙과 각 스타일 지표에 대한 신뢰도를 더욱 높일 수 있었을 것으로 보인다. 표 2(Table 2)의 구성 방식은 ...