NL-301, ARR 202510
NL-284, 2506 ARR Review4 제목: Data Generation Disguised as Style-Transfer: The LLM Perspective Abstract 대규모 언어 모델(LLM)을 이용한 데이터 생성과 스타일 전이의 가능성에 대한 관심이 연구 커뮤니티에서 증가하고 있다. 본 논문에서는 원본 스타일과 목표 스타일의 개념적 이해를 위해 스타일 전이 모델 후보들을 조사하고, 데이터가 부족한 상황에서 새로운 데이터를 생성하기 위한 잠재적 활용 가능성을 검토한다. 우리는 스타일을 구별할 수 있는 모델이 특정 스타일의 텍스트를 생성하도록 제어될 수 있음을 관찰하였다. 데이터가 부족한 시나리오에서는 충분한 인스턴스의 부재로 연구가 어려워질 수 있는데, 본 연구에서는 대규모 언어 모델이 이런 상황에서 데이터를 생성해 예비 연구를 진행하는 데 사용될 수 있는지 탐구한다. 먼저, 데이터 부족 상황에서 LLM이 효과적인 도구가 될 수 있는지 질문하며, LLM이 서로 다른 스타일로 쓰인 텍스트들을 구분하는 능력을 양적으로 평가하고, 특정 스타일 A의 텍스트가 주어졌을 때, LLM이 개입을 통해 텍스트의 스타일을 바꿀 수 있는지를 질적으로 평가한다. 마지막으로, 사람이 직접 작성한 대규모 텍스트 컬렉션을 구축하기 어려운 GENZ(Generation Z) 특유의 독성을 표현하는 사례 연구에 본 접근법을 적용하였다. 1 서론 텍스트 스타일 전이(Textual Style Transfer)는 텍스트의 핵심 의미를 유지하면서 문장의 스타일적 속성을 변형하는 작업이다(Mukherjee 등, 2024b). 스타일 전이는 캐주얼한 문장을 형식적인 문장으로 바꾸기(Gupta 등, 2023), 독성 문장을 비독성으로 바꾸기(Mukherjee 등, 2024a), 직유를 활용한 표현 생성(Chakrabarty 등, 2020), 주관적 편향성을 중립화하는 작업(Pryzant 등, 2020), 감각적 스타일에 대한 탐구(Khalid와 Srinivasan, 202...