NL-287, CV, Mitigating Object Hallucinations in Large Vision-Language Models through Visual Contrastive Decoding, CVPR 2024

Abstract 대규모 비전-언어 모델(Large Vision-Language Models, LVLM)은 시각 인식과 언어 이해를 결합하여 일관되면서도 맥락에 맞는 콘텐츠를 생성하며 상당한 발전을 이루었다. 그러나 이러한 성공에도 불구하고, LVLM은 이미지에 존재하지 않는 객체를 포함하여 그럴듯하지만 잘못된 출력을 생성하는 "객체 환각(object hallucination)" 문제를 여전히 겪고 있다. 이 문제를 해결하기 위해, 본 연구에서는 원본 이미지 입력과 왜곡된 이미지 입력에서 도출된 출력 분포를 대조(contrast)하는 간단하고 추가 훈련이 필요 없는 방법인 "시각적 대조 디코딩(Visual Contrastive Decoding, VCD)"을 제안한다. 제안된 VCD는 객체 환각의 두 가지 주요 원인인 통계적 편향(statistical bias)과 단일 모드 선험 지식(unimodal priors)에 대한 과도한 의존성을 효과적으로 감소시킨다. 이를 통해 생성된 콘텐츠가 시각적 입력에 더 밀접하게 연관되도록 보장하여 맥락적으로 정확한 출력을 얻을 수 있게 한다. 우리의 실험 결과에 따르면, VCD는 추가 훈련이나 외부 도구의 사용 없이 여러 LVLM 계열에서 객체 환각 문제를 현저하게 완화시킨다. 또한 객체 환각 완화를 넘어 일반적인 LVLM 벤치마크에서도 우수한 성능을 나타내어, 이 방법의 폭넓은 적용 가능성을 입증하였다. 본 연구에서 사용한 코드는 공개될 예정이다. Reference https://arxiv.org/pdf/2311.16922

NL-286, Self-refine: Iterative refinement with self-feedback, NeurIPS 2023

이미지
◼ Comment 이 논문은 자기가 생성한 응답에 대한 피드백을 생성하고 다시 재생성하는 프레임워크를 제시한다 즉 LLM은 처음부터 완벽히 생성 못하는 단점이 있고 이를 지속적으로 피드백을 통해서 재생성하면 품질이 좋아진다는 의미이다 피드백은? few-shot으로 구체적인 실행가능한 피드백을 생성하라고 LLM 자기자신을 통해 생성한다 구체적인 피드백이 아니라, 고정된 General한 피드백을 줘서 재생성하라고 하면, 효과는 있지만 구체적인 피드백보다 좋지는 않다는 것을 보여준다. 재생성은? 피드백과 입력/이전 출력을 활용하여 few-shot으로 프롬프트 줘서 재생성한다 다양한 벤치마크에서, 평가결과 꽤 많이 향상됨을 보여준다 반복될수록 성능은 향상하지만 점점 saturation 되는 경향이 있다고 함 아쉬운 점은 openai 모델들을 api을 통해 실험을 한것 같은데, gpt3.5, chatgpt, gpt4에 대해 효과적이라고 입증한다 오픈소스 모델은 pretrained Vicuna-13B 했더니 효과가 없었다는 점을 말하는데, 이 부분을 좀 더 광범위하게 실험했어야 하지 않나 싶다 (instructed model이나 다른 model family 등) 나의 궁금증은 LLM이 만약 환각 응답을 생성했다면, 본인이 알까? 였는데 이 논문의 과정을 생각해보면 안다는 것이다. 이 논문이 환각 연구는 아니지만, 환각 입장에서도 반복 생성을 하면 성능이 좋아질거 같고 비슷한 연구가 요즘에 다수 존재한다 즉 처음에 Greedy decoding으로 생성한 것은 부정확할 수 있고, 이는 모델의 내재된 지식을 통해 충분히 좋은 방향으로 수정될 수 있음을 시사한다. 처음부터 잘 생성할 수 있는 디코딩 전략은 무엇일까... Abstract 인간과 마찬가지로, 대규모 언어 모델(LLM)은 항상 첫 시도에서 최적의 결과를 내지 못한다. 본 논문에서는 사람들이 글을 수정하는 방식에서 착안하여, 자기 피드백을 통해 LLM의 초기 출력을 반복적으로 개선하는 방법인 SELF-REFINE 을 ...

NL-285, Self-Consistent Decoding for More Factual Open Responses, Preprint 2024

이미지
◼ Comment https://ai-information.blogspot.com/2025/06/nl-280-ucs-lightweight-reranking-for.html 위 논문과 상당히 유사한 방법이다 방법론은 거의 유사한데, 이 논문은 아직 억셉이 안된거 같음 비교 방법도 좀 빈약한 느낌이다 앞으로 억셉되려면 UCS 논문외에도 비슷한 연구들 인용을 해야하니.. 쉽지 않을거 같다 약간 타이밍을 놓친 느낌? 방법론은 다음과 같다 테스크: 요약 일단 여러 개 샘플을 생성한다 그리고, 이를 리랭킹하는데 리랭킹은 매우 간단한게 문장내 토큰이 다른 샘플링문장에서 얼마나 자주 빈번하게 발생하냐를 기준으로 점수를 매긴다 예) 바이든에 대한 문서를 요약해달라고 하자  모든 요약된 샘플에는 바이든이라는 토큰이 등장할 것이다 그렇다면 바이든에 해당하는 점수는 매우 높게 될 것이다 (모든 요약문에 등장하니) 이런식으로 샘플링된 요약문에 자주 등장하는 토큰일수록 높은 점수일거고 문장내 토큰점수를 평균화해서 문장 점수를 산출한다 이 점수로 리랭킹해서 Top-1을 고르는식이다 벤치마크나 비교 모델이 좀 아쉽긴하지만 직관적인 방식으로 실험만 좀 탄탄히 했으면 어땠을까 하는 아쉬움이 있다 그리고 이 방법은 디코딩이라 부르기 좀 애매함 디코딩이 아니라 샘플링하여 리랭킹하는 것이기 때문에.. 문장 점수내는 것을 환각 검출 방법인 selfcheckgpt로 시도한것과 비교했는데, 그것보다 낫다고 한다 이러한 관찰은 괜찮은듯 Abstract 자기 일관성(Self-consistency)은 대규모 언어 모델(LLM)이 생성한 짧은 답변의 정확성을 향상시키는 강력한 방법으로 부상했습니다. 기존 정의는 생성된 텍스트에서 파싱된 최종 답변의 정확성만을 고려했습니다. 본 연구에서는 이러한 아이디어를 오픈 응답 생성까지 확장하여, 투표(voting) 방식을 디코딩 과정에 통합합니다. 각각의 출력 문장은 이전에 선택된 문장에 조건을 걸어 여러 샘플 중에서 단순한 토큰 중첩(token overlap) ...

NL-284, 2506 ARR Review4

◼ Comment Data Generation Disguised as Style-Transfer: The LLM Perspective  내가 느끼기엔 크게 컨트리뷰션이 2개다 1. LLM이 문장 인코딩할때, style 정보를 담고있냐? 이를 알기 위해, hidden state에다 linear 모델을 붙여서 스타일분류 모델을(프로브) 간단히 학습한다 학습해보니 분류기 성능이 높다는 것을 알 수가 있고, 즉 임베딩에 style 정보를 담고있는 것을 확인한다 그래서 LLM이 스타일 트랜스퍼를 할 수 있다는 것을 뒷받침할 수 있다 2. LLM에게 Gen Z에 맞는 데이터 트랜스퍼를 시켜서 데이터세트를 구축한다 만들어진 데이터세트에서도 같은 분석을 통해, 스타일이 잘 구분됐는지 확인한다 흠 하지만 왜 이렇게 데이터를 만들어야하지? 어차피 LLM이 스타일을 잘 이해하고 있다면 그냥 CoT나 그런걸로 데이터 만드는것도 가능할텐데? 명시적으로 스타일 강도를 줘서 좀더 세부적인 데이터세트를 만들 수 있는 장점이 있는거 같긴한데, 이러면 LLM이 직접 데이터 만드는 것은 어려울거 같음 따라서 binary가 아니라 스타일 강도에 따른 데이터를 만들고 이에 대한 유용한 간단한 실험을 해주면 좋을거 같음. 논문의 동기가 약하다는 느낌을 받았음 프롬프트 디자인도 결국 스타일 안내형이 좋다는 것인데 이거 보여주는 것도 cherry pick으로 예시를 보여줬는데, 모든 데이터에 대해 실제 attention이 어떻게 되는지 통계적으로 보여주는게 좋을거 같음 스타일 중립형은 굳이 설명안해도 될거 같이 보임 프로브 학습시 train/valid dataset 구성에 대한 정보가 있어야할거 같음 실험 reproduce를 위해 사용된 프롬프트는 부록에 공개하는게 좋을거 같음 Abstract 대규모 언어 모델(LLM)의 스타일 전환(style-transfer) 능력은 연구 커뮤니티에서 주목받고 있다. 본 논문에서는 스타일 전환을 위해 후보가 되는 모델들이 원본 스타일과 목표 스타일의 개념적...