NL-264, Taxonomy and Analysis of Sensitive User Queries in Generative AI Search System, Findings of NAACL 2025

논문 개요

이 논문은 대규모 한국 포털 서비스(검색 엔진)에 생성형 LLM을 탑재하여 운용하면서, 실제 사용자들이 입력하는 민감한 질의를 어떻게 분류하고 대응할지에 대한 체계·경험을 공유한 연구입니다. 구체적으로 다음과 같은 기여를 합니다.

  1. 민감 질의 분류 체계(택소노미) 제안

    • 불법/범죄(중범죄, 저작권 침해, 사생활 침해 등), 윤리적 이슈(차별, 자살 및 자해, 욕설, 시스템 의인화 등), 그리고 서비스적 관점에서 주의가 필요한 이슈(의료·법률 등 고위험 분야, 미래 예측, 논란 소지가 있는 사실관계, 프롬프트 조작 등)로 크게 세 범주로 나눔.

    • 각 카테고리에 해당하는 대표 예시를 제시해, 실 서비스에서 어떤 식으로 민감 질의를 골라낼 수 있는지 구조화함.

  2. 민감 질의 자동 분류 모델

    • HyperCLOVA X를 백본(Backbone)으로 하여, 12개 민감 범주를 분류하는 분류기를 구축.

    • 분류기가 놓칠 수 있는 부분(과도 차단·과소 차단)에 대해서는 규칙 기반(블랙리스트·화이트리스트) 모듈로 보완.

    • 실제 사용자 로그를 대상(약 70일간)으로 분류 후, 각 카테고리의 분포와 사용자의 질의 패턴을 정리.

  3. 실제 사용자 로그 분석

    • 서비스 초창기에는 ‘시험 삼아’ 논란이 될 만한 질문(범죄, 논란성 사실 관계 등)을 집중적으로 던지는 경향이 있었음.

    • 이후에는 특정 사회 이슈(예: 마약 스캔들, 남녀 갈등, 국제 분쟁 등) 발생 시, 해당 이슈와 직결된 민감 질의(범죄·차별·미래 예측 등)가 급증하는 양상을 보임.

    • 궁극적으로 각 카테고리별 사용자 쿼리의 대략적인 비율이 어느 정도 안정되는 추세가 관찰됨.

이를 통해 연구진은 검색 서비스와 LLM을 결합할 때, 민감한 질의에 대응하기 위한 설계 지침을 제안하고, 실제 한국 사용자의 대규모 로그에서 뽑아낸 통계·사례를 공유함으로써 후속 연구나 타 서비스에서의 참조 지점을 마련하고 있습니다.


논문 리뷰

1. 장점 (Strengths)

  1. 실제 대규모 사용자 로그 기반 연구

    • 연구 대상이 ‘연구용 샘플’이 아닌, 일일 수백만 이상 쿼리가 유입되는 상용 검색 포털이다 보니, 현실적인 인사이트적용 노하우가 풍부함.

  2. 구체적이고 세분화된 분류 체계

    • 민감 질의 분류라는 주제는 이전에도 다뤄졌지만, 대부분 ‘유해 vs 무해’처럼 범용적·추상적이었다.

    • 이 논문은 불법·윤리·서비스 차원으로 나누고, 또 세부 카테고리를 12개나 정의하면서, 실제 서비스에서 구체적으로 대응해야 할 포인트들을 세밀하게 제시함.

  3. 시기별·이슈별 질의 변화 분석

    • 신제품 출시 직후 **‘테스트 용’**으로 악용할 만한 질의가 몰린다든가, 사회적 사건(스캔들, 전쟁, 정책 변화 등)에 따라 특정 민감 카테고리가 급증하는 현상은, 운영자에게 매우 실용적인 팁이 됨.

    • 이를 통해, 시나리오별 사전 대비(블랙리스트·분류기 강화)가 중요함을 설득력 있게 보여줌.

  4. 한국어 중심 연구

    • 해외엔 영어권 모델을 다룬 연구가 많지만, 한국어 환경, 한국 문화·법제·서비스 특성을 고려한 사례 연구는 상대적으로 적었음.

    • 한국어 사용자 특성(예: 욕설, 차별·갈등 표현, 특정 사회 현상이나 정치 이슈 등)이 면밀히 드러나 있다는 점에서 의의가 큼.

2. 단점 (Weaknesses)

  1. 문화·법 체계 종속성

    • 논문에서도 언급하듯, 이 연구는 한국어·한국 문화에 최적화된 분류 체계를 기반으로 함. 다른 국가·언어권에 곧바로 확장하기에는, 예컨대 종교·정치 문제에서의 민감도나 규제 기준이 많이 다를 수 있음.

  2. 단일 쿼리 중심 분석

    • 멀티턴 대화나 연속 질의 상황도 많은데, 본 논문은 (검색 서비스라는 특성상) 단발성 쿼리에 초점을 맞추어 카테고리를 분류.

    • “단일 질문만 봤을 때는 안전해 보이지만, 이전 맥락을 합치면 위험해질 수 있는 경우” 등은 충분히 다루지 못함.

  3. 라벨링과 규칙 기반 보완의 관리 비용

    • 분류기가 놓치는 사례를 빠르게 규칙 기반으로 막는 것은 유연하지만, 규칙이 누적될수록 예외 처리가 복잡해지는 문제가 있을 수 있음.

    • 장기적 관점에서 분류 모델 자체의 추가 학습 및 품질 관리가 필수지만, 그 비용이나 난이도에 대한 언급은 비교적 간략함.

  4. 사내 비공개 데이터

    • 논문에 공개된 예시나 통계는 익명·암호화 처리가 되어 있어, 세부 쿼리 샘플이나 정확한 수치는 제한적.

    • 결과적으로 실무 응용 시 참고하기엔 다소 추상적으로 느껴질 수도 있음.

3. 기여 (Contributions)

  • 대규모 한국 검색 엔진에 생성형 LLM을 실서비스로 연결하고, 운영 관점에서 축적된 실제 사례를 체계화·분석했다는 점에서 의미가 큼.

  • 기존 ‘안전성 연구’가 출력(모델이 생성하는 텍스트)의 유해성에 집중하는 경향이 강했던 반면, 사용자 입력(쿼리)의 민감도를 분류·예측하는 체계를 중점에 둔 것이 독창적임.

  • 민감 쿼리 대응을 위한 세밀한 ‘카테고리화’ 방법론과 **구체적인 운영 로드맵(분류기 + 규칙 기반 보완 + 오프라인 검증·피드백 루프)**을 제안함으로써, 비슷한 서비스를 구축하려는 이들에게 실용적 레퍼런스를 제공.

4. NAACL에서 억셉된 이유

  • 최근 LLM들이 폭발적 관심을 받으면서, 안전성·윤리적 이슈가 학계·산업계 전부 중요한 주제가 되었음.

  • 대부분이 영어 기반 연구이거나, 모델 내부 출력(생성 텍스트)의 안전성 문제를 다뤄왔는데, 이 논문은 한국어와 실사용자 로그라는 차별점, 그리고 입력 쿼리에 대한 세부 분류를 제시했다는 점이 참신했을 것으로 보임.

  • 더불어 대규모 실제 검색 포털의 사례라는 희소성이 있음.

  • “민감성 분류→모델 대응→실 사용자 패턴 분석” 같은 연구와 실무가 결합된 스토리가 NAACL 등의 학술 행사에서 충분히 의미 있다고 판단했을 것으로 추정됨.


“한국어 실험만 했는데, 영어 등 다른 언어에서도 따로 검증해야 하나?”

  • 결론부터 말하면, ‘그대로 재현할 수 있다’고 보기 어렵고, 다른 언어권(영어 등)에서도 별도의 검증이 필요합니다.

    1. 문화 차이, 민감도 차이

      • 예컨대 ‘정치적 발언’이나 ‘차별적 표현’의 민감 범위가 나라마다 다릅니다. 한국에서는 해당될 수 있어도, 영어권에선 사회적 통념이 다를 수 있음.

    2. 법적 규제 차이

      • 저작권, 개인정보 보호, 성인물 규제 등은 미국·유럽·아시아마다 기준이 다르기 때문에, 카테고리와 차단 기준 자체를 재정의해야 할 수 있음.

    3. 언어적 특성

      • 한국어에서는 비속어·욕설·성차별 표현이 특정 단어·어미로 드러나는 경우가 있지만, 영어권에서는 다른 패턴으로 나타남.

      • 분류 모델도 결국 학습 데이터 언어가 무엇이냐에 따라 성능이 달라지므로, 영어권에 동일한 분류 시스템을 적용하려면 영어 데이터로 새로 fine-tuning이나 전처리 규칙 설계가 필요할 것입니다.

  • 따라서, 저자들도 “본 연구는 한국 문화와 목적에 맞게 짜인 택소노미”라고 강조하며, 국제적으로 그대로 쓰기보다는 참조용 프레임워크로 보는 것이 안전하다고 언급하고 있습니다.

  • 만약 영어 사용자 대상 서비스로 확장한다면, 영어 데이터 수집→해당 문화권의 민감도 재정의→분류 모델 재학습 과정을 거쳐야 제대로 된 필터링이 가능할 것입니다.


결론

이 논문은 한국 포털에 구축된 생성형 AI 검색 시스템의 민감 쿼리를 대규모로 관측·분석하고, 이를 분류·차단하거나 안전 대응하기 위한 프레임워크(택소노미·모델·규칙 등)를 체계적으로 제시한다는 점에서 큰 의의가 있습니다.
논문에 따르면 실제 서비스에서 발견되는 민감 쿼리의 유형은 ‘범죄·저작권 침해·개인정보·자살·차별·욕설’ 등 굵직한 범주들로 다양하며, 특정 사회 이슈가 터질 때마다 해당 카테고리의 쿼리가 급증하는 양상도 흥미롭게 드러납니다.

장점으로는 현실적인 데이터·구체적 택소노미·세분화된 사례를 제공한다는 점이 돋보이고, 단점으로는 한국만의 사례라 해외 적용성에 한계가 있고, 멀티턴 문맥이나 세부 예외 규칙이 충분히 다루어지지 않았다는 점이 있습니다. 그럼에도 LLM 기반 서비스 안전성 연구에서 ‘사용자 입력’ 측면을 실제 운영 데이터로 조망했다는 점이 높이 평가되어, NAACL에 채택된 것으로 보입니다.

한편, 저자들이 사용하는 분류 체계를 영어권이나 다른 언어권으로 옮기려면 추가적인 데이터 수집과 검증 과정이 필수적입니다. 문화·법적 기준·언어적 특수성을 반영해야 모델이 제대로 작동할 것이기 때문입니다.

Reference

댓글