NL-262, Reducing hallucination in structured outputs via Retrieval-Augmented Generation, NAACL industry 2024

이미지
Abstract  생성형 AI(GenAI)의 현재 한계 중 하나는 **환각(hallucination)**을 일으키는 경향입니다. 대형 언어 모델(LLM)이 전 세계적으로 주목받고 있지만, 이러한 환각 문제를 제거하거나 최소한 줄이지 않으면, 실제 환경에서 GenAI 시스템이 사용자에게 널리 채택되기는 어려울 수 있습니다. 우리는 자연어 요구사항으로부터 워크플로우를 생성하는 엔터프라이즈 애플리케이션을 배포하는 과정 에서, 해당 워크플로우를 구조화된 출력으로 표현하는 품질을 향상시키기 위해 RAG(Retrieval-Augmented Generation) 방식을 활용한 시스템을 고안했습니다. 우리의 RAG 구현 덕분에, 제안하는 시스템은 환각을 현저히 줄일 수 있었고 , LLM이 **도메인 외 입력(out-of-domain)**에도 잘 일반화될 수 있도록 만들었습니다. 또한, 작고 잘 훈련된 retriever를 사용하면 LLM의 크기를 줄일 수 있음 을 보여주었으며, 성능 저하 없이도 자원 소모를 줄인 LLM 기반 시스템 배포가 가능 하다는 것을 입증했습니다. 1 Introduction 대형 언어 모델(LLM)의 등장으로, 자연어를 코드나 SQL 같은 구조화된 출력 으로 변환하는 작업이 상업적으로 실현 가능 해졌습니다. 비슷한 응용 사례로는, 자연어 요구사항을 워크플로우 로 번역하는 작업이 있습니다. 이 워크플로우는 여러 단계와 그들 간의 논리적 관계를 나타내며, 특정 조건이 만족될 때 자동으로 실행되는 프로세스 를 포함합니다. 이러한 자동화는 직원의 생산성을 향상시킵니다. 기업용 시스템은 반복적인 작업을 자동화하고 프로세스를 표준화하는 기능을 제공하지만, 워크플로우를 구성하려면 전문 지식이 필요하기 때문에 진입 장벽이 높습니다. 그러나 생성형 AI(GenAI)는 사용자가 자연어만으로 원하는 작업 흐름을 지정 할 수 있게 하여 이 장벽을 낮출 수 있습니다. 하지만 모든 GenAI 응용과 마찬가지로, LLM을 그대로 사용할 경우 신뢰할 수 없는 출력...

NL-261, Two-tiered Encoder-based Hallucination Detection for Retrieval-Augmented Generation in the Wild, EMNLP Industry 2024

이미지
이 논문은 산업 현장에서 실제로 사용 가능한 LLM 환각 탐지 모델 을 제안하고, 도메인 특화된 실데이터 기반 학습과 실용적 아키텍처 설계 를 통해 기존 모델보다 뛰어난 성능 을 보인다는 점에서 industry 트랙 에 적합하며, 아래와 같은 이유로 억셉되었을 가능성이 큽니다. ✅ 논문 요약 (요점 정리) 🎯 문제 정의 LLM + RAG 시스템에서의 환각(hallucination) 탐지 문제 는 여전히 해결되지 않은 과제. 기존 연구는 공개 데이터만 사용 하고, 실제 운영 환경 고려 부족 , 검증 불가능한 발화 미처리 등 한계 존재. 🧩 제안한 방법 (RAGHalu) 2단계 인코더 기반 분류기 ( RAGHalu-1 , RAGHalu-2 )로 환각 탐지. Step 1: 문장이 검증 가능한 정보인지 판단. Step 2: 그 문장이 지식 문서로부터 지지되는지 판단. DeBERTa 기반 소형 인코더 모델 사용 → 빠르고 효율적. 모델은 공개 + 브랜드 실데이터 로 학습. 검증 가능한 정보 vs NO-INFO 구분 이라는 현실적인 기준 도입. 🧪 실험 및 결과 ChatGPT 프롬프트, Mistral-7B, 기존 오픈소스 환각 탐지 모델과 비교. 실제 고객 서비스 대화에서 UNSUPPORTED F1 스코어 0.93 기록 → 최고 성능. 특히 FactScore처럼 긴 문맥 에서 성능 우수. 도메인 적합성 : 브랜드 데이터 기반 미세조정 시 성능 향상 확인. 비용/지연/호스팅 고려 까지 실용적으로 분석. 🏆 Industry 트랙 억셉 핵심 이유 1. 현실적인 문제 정의 및 적용 단순 학술 문제 아닌, 실제 기업들이 겪고 있는 RAG 환각 문제를 정조준 . 오픈소스 데이터와 실 운영 데이터를 모두 활용. 2. 도메인 특화 학습 + 성능 향상 브랜드 데이터 기반 미세조정으로 도메인 특화 모델 성능 향상 입증. 일반화 성능 + 도메인 최적...

NL-260, Efficient and Effective Vocabulary Expansion Towards Multilingual Large Language Models, Preprint 2024

이미지
Abstract 이 보고서는 EEVE-Korean-v1.0 을 소개합니다. 이는 영어와 한국어 모두에서 뛰어난 이해 능력을 보여주는 대규모 언어 모델(LLM)을 한국어에 맞게 적응시킨 모델입니다. 기존의 강력하지만 영어 중심적인 LLM들(예: SOLAR-10.7B , Phi-2 )은 영어 중심의 토크나이저를 사용해 비영어 텍스트를 비효율적으로 처리한다는 한계를 가지고 있었습니다. 이에 우리는 **효율적이고 효과적인 어휘 확장 방법(EEVE)**을 제안합니다. 이 방법은 파라미터 고정(parameter freezing)과 서브워드 초기화(subword initialization)를 포함합니다. 기존 연구들은 새로운 임베딩 학습에 수 조 개의 학습 토큰이 필요하다고 믿어왔지만, 우리는 20억 토큰만으로도 비영어(한국어) 성능을 크게 향상시킬 수 있음 을 보여줍니다. 그 결과, 2024년 1월 기준 Open Ko-LLM 리더보드 에서 대부분의 instruction-tuned LLM들을 능가했으며, EEVE-Korean-10.8B-v1.0 모델은 Hugging Face 리더보드 기준 오픈소스 커뮤니티 내에서 가장 성능이 뛰어난 한국어 사전학습 모델 로 평가받고 있습니다. 우리는 이 모델을 Huggingface에 오픈소스로 공개하여 다양한 언어의 오픈 리서치 커뮤니티에 힘을 실어주고자 합니다. 1 Introduction 최근 GPT-4(OpenAI, 2023) , Gemini(Team et al., 2023a) , **Claude(Anthropic, 2023)**와 같은 대규모 언어 모델(LLM)의 발전은 다국어 처리 및 이해 능력에서 놀라운 성과를 보여주고 있습니다. 반면, LLaMA(Touvron et al., 2023a,b) , MPT(Team et al., 2023b) , Falcon(Almazrouei et al., 2023) , Mistral(Jiang et al., 2023) , Mixtral(Jiang et al., 2024) , SOLAR(Kim ...

NL-259, Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca, Preprint 2023

이미지
◼ Comment further pretraining을 살펴보는 중 첫 번째 논문 영어 LLaMA -> 중국어 LLaMA로 만드는 것이다 LLaMA는 PLM이니, 중국어 코퍼스로 pretraining 더해서 chinese llama 만들고 alpaca 데이터로 SFT (instruct tuning 한다) 여기서 alpaca 데이터는 중국어 SFT 데이터로,  공개된 번역데이터 영문 alpaca 번역데이터 이런걸로 만들었다는 거 같음 사실 과정은 되게 베이식하고 누구나 해볼만한 방법이다 원하는 언어 데이터를 이용한 새로운 tokenizer 만들고 continual pretraining w/ LoRA SFT w/ LoRA 결과는 중국어 instruct model > 중국어 LLaMA == 영어 LLaMA  이렇다는 것인데, 중국어 LLaMA가 영어 LLaMA 보다 좋아야 하는거 아닌가?;; 그리고 중국거 instruct model vs 영어 LLaMA instruct 모델을 비교해야하는거 아닌가? plus란 버전은 pretraining할때 데이터를 더 많이 넣은건데 성능이 좀더 향상된다고 함 사실 노벨티는 진짜 없고, 뭔가 주장하고자 하는 논리도 애매하지만, 이 시기에 further pretraining을 시도한 논문이라 그런지 인용수가 높긴하다 ABSTRACT 대규모 언어 모델(LLM)인 ChatGPT 및 GPT-4는 자연어 처리(NLP) 연구에 혁신적인 변화를 가져왔으며, 인공지능 일반화(AGI)를 향한 유망한 진전을 보여주고 있습니다. 그러나 이러한 LLM을 훈련하고 배포하는 데 드는 높은 비용은 투명하고 접근 가능한 학술 연구에 큰 장애물이 됩니다. LLaMA와 같은 여러 대규모 언어 모델이 커뮤니티에 의해 오픈소스로 제공되었지만, 이들은 주로 영어 코퍼스를 기반으로 하여 다른 언어에는 그 유용성이 제한적입니다. 이 논문에서는 LLaMA를 중국어 텍스트 이해 및 생성, 그리고 지시사항 수행 능력을 갖추도록 확장하는 방법을 제안합니...

NL-258, LLM Pruning and Distillation in Practice: The Minitron Approach, Preprint 2024

이미지
◼ Comment Minitron 논문에서 간과했던 한 부분이, teacher 모델을 distillation할때 사용되는 학습 데이터다 보통 distillation할때, teacher 모델 학습에 사용됐던 pretraining 데이터를 그대로 사용한다고 한다 하지만 이는 항상 접근이 가능한게 아니기 때문에 데이터를 다른거를 써야할때 문제점이 생기고,  이 논문은 이 문제점을 해결한 논문이다 방법 teacher correction으로 teacher모델을 사용할 수 있는 데이터로 살짝 학습한다 그리고 여기서부터 distillation하고, 데이터도 이것을 사용하는 것이다 이 논문에서는  Nemotron-4 curated continued training (CT) 데이터 을 사용함 방법론은 되게 직관적인데 성능은 좋다고 한다 나머지는 minitron과 크게 다를건 없다 근데 사실 여기서 사용되는 데이터에 따라 영향을 분석하지 않았는데.. 영향이 있지 않을까? 싶음 마지막에 Instruct-tuning하여 Instruction model도 만드는데, 마찬가지로 성능이 좋다고 리포트한다 minitron에서 NAS로 찾은 아키텍쳐를 그대로 차용했다고 하고, 여기서 리포트하니 실제 사용하려면 비슷하게 구성하면 될것 같다? 아키텍쳐에 맞게 프루닝할때, Layer 중요도 계산이 조금 달라짐 (본문 참조) distillation의 최근 트렌드인거 같고, 엄청 중요하다고 개인적으로 느낀건 세계 각각에서 pretraining을 다 따로하는데, findings에 따르면 사실 거대한 모델한번 만들때만 필요한게 아닐까? 싶음 나머지는 그 모델로부터 시작하면 되지 않을까..? pruning, distillation, further pretraining이든 뭐든 이런건 가능할까? 영어-한국어가 되는 모델에서 한국어에 포커싱해서 distillation하는것임 그러면 영어 성능은 떨어져도 한국어 성능은 유지되는 작은모델이 되는것 즉 한국어 테스크에서 오픈소스 모델을 쓰고 싶을때...