*NL-215, Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection, ICLR 2024

이미지
ABSTRACT 거대한 언어 모델 (LLMs)은 놀라운 능력을 가지고 있지만, 종종 그들이 단독으로 포함하는 매개 변수 지식에 의존하여 사실에 부합하지 않는 응답을 생성합니다.  검색 증강 생성 (RAG)은 이러한 문제를 감소시키는 임시적인 접근 방식으로, LMs를 관련 지식 검색으로 보강합니다.  그러나 검색이 필요한지 여부나 통합할 문장이 관련한지 여부에 관계없이 일정 수의 검색된 문장을 무차별적으로 검색하고 통합하는 것은 LM의 다양성을 줄이거나 도움이 되지 않는 응답 생성으로 이어질 수 있습니다.  우리는 Self-Reflective Retrieval-Augmented Generation (SELF-RAG)이라는 새로운 프레임워크를 소개합니다.  이는 검색과 self-reflection을 통해 LM의 품질과 사실성을 향상시킵니다.  우리의 프레임워크는 단일 임의의 LM을 훈련시키고 필요에 따라 적응적으로 문장을 검색하고, 검색된 문장과 자체 생성물에 대해  special tokens 인 reflection tokens을 사용하여 반영합니다.  reflection tokens을 생성하면 추론 단계에서 LM을 제어할 수 있으므로, 다양한 작업 요구 사항에 맞게 그 동작을 맞춤화할 수 있습니다.  실험 결과 SELF-RAG (7B 및 13B 매개 변수)가 다양한 작업 집합에서 최첨단 LLMs와 검색 증강 모델을 크게 능가한다는 것을 보여줍니다.  특히 SELF-RAG는 오픈 도메인 QA, 추론 및 사실 확인 작업에서 ChatGPT 및 검색 증강 Llama2-chat을 능가하며, 이러한 모델과 비교하여 장문 생성에 대한 사실성 및 인용 정확도를 향상시키는 데 상당한 이득을 보입니다. 1 INTRODUCTION 모델과 데이터 규모가 증가하더라도 최첨단 LLMs는 사실적인 오류에 여전히 고민하고 있습니다 (Mallen et al., 2023; Min et al., 2023; Ouyang et al., 2022).  검색 증강 생성 (RAG) 방법 (그림 1 왼쪽;

NL-214, RAFT: Adapting Language Model to Domain Specific RAG, Preprint 2024

이미지
◼ Comment RAG을 스터디해보려고 처음 읽어본 논문이다. 논문 읽기전 RAG 연구라는게 검색된 문서를 어떻게 prompt하고 LLM 인퍼런스하는지 등에 대한 것이라고 생각했으나, 다양한 관점이 있는거 같음 이 논문에선 특정 도메인에서의 RAG을 하려고 하는 상황을 가정한다. 사실 노벨티는 별로 없어보이긴 함 시나리오 질의 (q) --> 검색문서 (d1, ..., d10) q, d1, ..., d10 -> 응답(r)생성 (d2을 기반으로 생성했다고 보자) 즉 여기서 응답을 생성할때, 활용되는 문서는 d2이다. 그러면 d1, d3, ..., d10은 사실 크게 필요없을 수 있다. 즉 LLM모델은 질의에 답을 생성할때, 무슨 문서가 필요할지 알 필요가 있다. 학습 사나리오 가장 기본적으로 생각할 수 있는건 q, d2 -> r 하도록 학습한다 하지만 이러면 모델이 golden document만 보기 때문에 성능이 떨어지는 결과를 보여준다 저자가 제안한 것 q, d1, d2, d3 -> r 이런식으로 학습 즉 일부 distractor(d1, d3)을 prompt에 넣어서 학습하도록 한다. 여기서 사용한 학습 데이터에서는 어떤 문서를 기반으로 응답을 생성했지 표시되어있음 q, d1, d3, d4 -> r 이런식으로도 학습 학습 데이터의 일부는 아예 golden을 안줘버린다. 즉 distractor 문서만 prompt로 주는 것인데.. 이건 LLM이 좀 더 negative doucment에 강인하게 만들고 메모라이징 기능을 넣는 것이라고 한다. 사실 직관적으로 ? 가 띄긴하나 뭐 어쨌든 일부 %는 이렇게 하는게 성능이 좋다고 함 논문에서 언급되는 모델들을 정리하자면 LlaMA2-7B-chat model with 0-shot prompting : 기존 LLM에 Q->A가 되도록 RAG없이 테스트 LlaMA2-7B-chat model with RAG (Llama2 + RAG) : 기존 LLM에 Q+D->A가 되도록 테스트 domai

NL-208, Taxonomy and Analysis of Sensitive User Queries in Generative AI Search, Review (NAVER)

이미지
◼ Comment 전체적으로 페이지 limit 이슈땜에 부록으로 넘긴 부분이 꽤 있는 느낌을 받긴 했네요. 전체적인 논문 흐름은 딱히 이상한 점 없는거 같아요. 1. Introduction - Furthermore, researchers have observed that the models understand human instructions in natural language formats, which makes general people easy to use AI models. : researcher --> previous researches/works : general people --> non-expert people - Despite the benefits, only a few affiliations could successfully launch services based on LLMs and maintain them. : them에 NAVER도 넣으심이? 어차피 hyperclova쓰고 말하는거보면 NAVER인거 다 알거 같아서 - However, the gaps could be covered if we negotiate the model size or use a publicly-opened pretrained model and fine-tune it. : reference나 이런 사례(오픈 소스 예시)들을 같이 말해주면 좋을 것 같습니다. - Since people generally consider generative models as human-like assistants interacting with conversation, the inputs (in our case, search query log) might be similar regardless of application type while the outputs could be different according to the purpose of the system.  We thus

*NL-213, Llama 2: Open Foundation and Fine-Tuned Chat Models, Preprint 2023

이미지
Abstract  본 연구에서는 7억 개에서 700억 개의 파라미터까지 다양한 규모의 사전 훈련 및 파인 튜닝된 대규모 언어 모델(Large Language Models, LLMs)인 Llama 2를 개발하고 공개합니다.  우리의 파인 튜닝된 LLMs인 Llama 2-Chat은 대화 사용 사례에 최적화되었습니다.  저희 모델들은 우리가 테스트한 대부분의 벤치마크에서 오픈 소스 대화 모델보다 우수한 성능을 보이며, 저희가 실시한 인간 평가에서 유용성과 안전성에 대한 평가에 따르면, 닫힌 소스 모델에 대한 적절한 대안일 수 있습니다.  우리는 Llama 2-Chat의 파인 튜닝 및 안전성 개선 접근 방식에 대한 상세한 설명을 제공하여 커뮤니티가 저희의 작업을 기반으로 빌드하고 책임 있는 LLMs의 개발에 기여할 수 있도록 합니다. 1 Introduction 대형 언어 모델(LLMs)은 프로그래밍 및 창의적 글쓰기와 같은 전문 분야를 포함하여 다양한 분야에서 전문 지식이 필요한 복잡한 추론 작업에서 뛰어난 능력을 발휘하는 고도로 능숙한 AI 어시스턴트로 큰 가능성을 보여주고 있습니다.  이들은 직관적인 채팅 인터페이스를 통해 사람들과 상호 작용할 수 있게 해주어 일반 대중 사이에서 빠르고 널리 채택되고 있습니다. LLMs의 능력은 훈련 방법론의 보다 단순해 보이는 성격을 감안할 때 주목할 만합니다.  자기지도 데이터의 방대한 말뭉치에서 사전 훈련된 자기회귀 트랜스포머는 인간의 선호도와의 조율을 위해 Reinforcement Learning with Human Feedback (RLHF)와 같은 기술을 통해 사전 정렬됩니다.  비록 훈련 방법론이 간단하지만, 높은 컴퓨팅 요구로 인해 LLMs의 개발은 소수의 주요 참가자로 제한되어 왔습니다.  BLOOM (Scao et al., 2022), LLaMa-1 (Touvron et al., 2023) 및 Falcon (Penedo et al., 2023)과 같은 사전 훈련된 LLMs의 공개 배포가 있었지만, 이러한 모델 중