NL-295, ARR Review

이미지
Advancing Emotion Recognition and Intensity Modeling for Ethiopian Languages ◼ Comment 감정인식에서 단순 single label 형식으로는 제대로 감정을 표현 못하기 때문에, multi class, multi label 데이터를 만든다고 한다. 여기서는 EthioEmo 데이터 기반으로 감정강도에 대한 어노테이션을 통해 데이터 확장했다 에티오피아는 4 종류의 언어가 있다고 하는데 언어에 따라 annotation이 5명인 경우가 있고 3명인 경우가 있는데 5명인 경우, annotation 하는 식이 뭔가 불완전한거 같아보임 anno<2 인 경우는 어떻게 되는거지? 학습에 대해서 너무 생략되어 있다 각 multi label의 intenstiy가 0,1,2,3 형태로 있는데 bert 기반 모델에서 이거를 어떻게 학습하는거지? 각 레이블에 대한 head가 있고 regression? classification 형태로 학습이 되는것인가? 표 1은, 각 에티오피아 언어에 대해 학습/테스트가 이뤄지고 표 2는, 3개의 에티오피아 언어에 대해 학습되고 나머지 1개에 대하 테스트되는 cross-lingual 세팅이라고 한다 평가에 대해서도 정보가 부족하다 멀티레이블에서 Macro-F1으로의 성능측정은 얼마나 믿을만한가?  Macro-F1은 어떻게 측정되는것인가? 각 감정에 대해 accuracy을 측정하고 이를 평균내는것인가? intensity가 1이상이면 일단 그 감정을 가지고 있다고 보는 것인가? Abstract 감정 이해는 고객 피드백 분석, 마케팅 인사이트, 소셜 미디어 모니터링 등 다양한 인간-컴퓨터 상호작용 작업의 핵심입니다. 실제 환경에서는 사람들이 동시에 여러 감정을 표현하는 경우가 많아, 감정의 복합성을 포착하기 위해 다중 레이블 주석이 필수적입니다. EthioEmo 데이터셋( Belay et al., 2025 )은 에티오피아 언어에 대한 다중 레이블 감정 주석을 제공하지만, 각 감정...

NL-294, Ola: Pushing the Frontiers of Omni-Modal Language Model, Preprint 2025

이미지
◼ Comment 옴니 모델은 대충 어떻게 학습되고 평가되는지를 보기 위해 빠르게 보았다. 데이터 비전:  LAION-5B, COYO-700M, Conceptual Captions v3, Wikipedia 데이터를 확장하여 사용한듯 오디오: 오픈된 데이터  LLaVA-Video-178k [80]의 학술 비디오 데이터셋과 FineVideo [17] 를 가져와 AI tools?을 이용해서 확장한거라 보면 됨 학습 qwen2.5-7b에서 시작하여 텍스트-이미지, 이미지-비디오, 비디오-오디오 학습을 순차적으로 진행하는 형식이다. 텍스트-이미지 학습 단계에서는 pretraining / post-training이 있음 예로, 텍스트-이미지 단계라고 하면 OCR, captioning 같은걸로 pretraining 하고 captioning으로 다시 SFT 하는거 같음 나머지 단계에서는 SFT만 수행하는듯 이미 텍스트와 이미지에 대해 잘 배웠으므로, 텍스트 확장인 오디오, 이미지 확장인 비디오에 대해서는 모델이 알고 있다고 간주 섹션 3.3.2, 그림 4을 보면 학습되는 순서를 알 수 있다. 토크나이저는 이미 각 모달리티에 알려져 있는, encoder을 사용했음. 테스트 옴니 테스트용 데이터를 만든거 같지는 않고 이미 기존에 있는 다양한 벤치마크들을 가져다가 평가한 것으로 보임 이전 모델들보다 좋은 성능을 낸다고 1. 데이터 확장 및 품질 향상 방식 Re-captioning / Re-questioning GPT-4o, Gemini-Pro 같은 최신 LLM을 이용해 기존 이미지·비디오 데이터의 캡션과 질문을 다시 생성하여 품질·난이도·일관성을 개선. Cross-modal alignment를 위한 데이터 설계 비디오를 중심 매개체로 설정 → 비디오 프레임 + 오디오 + 자막 기반 Q&A 생성. 자막만 사용 시보다 오디오를 직접 쓰는 게 성능이 높게 나옴. 2. 학습 전략 특징 Progressive Modality Alignm...

NL-293, I Don’t Know: Explicit Modeling of Uncertainty with an [IDK] Token, NeurIPS 2024

이미지
◼ Comment 여기서 모델이 학습할때, 모르는 부분에 대해서는 모른다고 학습을 해야한다고 말한다 하지만 다른 연구처럼 명시적으로 I don't know와 같은 문구로 답변하는게 아니라, special token [IDK]을 만들고 이를 vocab에 넣어서 학습하겠다는 것이다 귿네 pretraining이라는게 원래 지식을 주입하는 거고, SFT에서 pretraining에 없는 지식을 강제로 학습할때 환각이 발생하기 때문에 IDK로 해결하려고 하는건데 여기서는 continual pretraining에서 IDK을 넣는것이다.  SFT랑은 다르게, pretraining 학습데이터 (PILE)에서부터 학습을 진행한다 그래서 살짝 이상하다. pretraining은 원래 지식주입단계인데? 따라서 기존의 pretraining 된 모델에서 모르는 지식은 IDK로 처리하겠다는 것인데 완전히 IDK로 처리하는게 아니라 일부 확률을 IDK로 보겠다는 것이다 좀 더 디테일하게 가면 학습할 문서가 있을때, 순차적으로 토큰을 생성하도록 학습될거다 이때 토큰을 생성할 확률에 확신이 없으면, 그 만큼을 [IDK] 토큰쪽의 label로 옮기겠다는 것 생성할 토큰이 vocab에서 첫번째면 레이블이 [1,0,0,0]이다. 이때 모델이 생성할 확률이 [0.1, 0.5, 0.2, 0.2]이면 원래라면 이 확률이 [1, 0, 0, 0]에 가까워지도록 학습이 된다. 하지만 레이블을 [0.6, 0, 0, 0.4] 이런식으로 변형해서 학습을 하면, 이 상황에서는 4번째 [IDK]토큰이 생성되어야 한다는 시그널을 주는 것이다 몇 가지 하이퍼파라미터가 있는데 본문 참고 몇 개의 베이스라인이 있는데 일단 패스하고.. 평가할때는 모델이 입력으로 불완전한 문장을 받고, 이를 사실적으로 완성하는 것으로 질문 형태 (원본) 문장 형태 (변환 후) 정답 "한국의 수도는 어디인가요?" "한국의 수도는 ___이다." 서울 "앨버트 아인슈타인이...

NL-292, Factuality Enhanced Language Models for Open-Ended Text Generation, NeurIPS 2022

 다음은 논문 「Factuality Enhanced Language Models for Open-Ended Text Generation」을 요약한 것입니다. 논문의 개요 대규모 사전 학습 언어 모델(Pre-trained Language Models, LMs)은 자연스러운 텍스트 생성 능력이 뛰어나지만, 사실에 부합하지 않는(nonfactual) 내용을 생성하는 문제가 있음. 본 연구는 오픈 엔드(Open-ended) 텍스트 생성 시 언어 모델이 생성하는 문장들의 사실 정확성(factual accuracy) 을 측정하고 향상시키는 방법을 연구함. 이를 위해, 논문은 다음 세 가지 주요 기여를 제시함: 사실성 평가를 위한 벤치마크( FACTUALITYPROMPTS ) 및 평가 지표 구축 Factual-nucleus sampling 이라는 새로운 디코딩 알고리즘 제안 Factuality-enhanced training 이라는 새로운 학습 방식을 제안하여 기존 LM의 사실성을 크게 개선함 주요 연구 내용 및 방법론 1. FACTUALITYPROMPTS 벤치마크 및 평가 지표 설계 오픈 엔드 생성 문장을 위한 새로운 평가 세트 ( FACTUALITYPROMPTS ) 제작 평가 방법은 다음과 같이 구성됨: Named-Entity Error (NEER) : 생성된 문장에서 위키피디아 등 신뢰 가능한 문서에 나타나지 않은 Named Entity(NE)가 등장하면 오류로 간주. Entailment Ratio (EntailR) : 생성된 문장이 문서 내의 Ground-truth 문장에 의해 entail(함의)되는 정도로 측정. 자동 평가 방식은 human annotation(인간 평가)과 강한 상관성을 보였음. 2. Factuality 분석 모델 크기(126M ~ 530B), 프롬프트 유형, 디코딩 알고리즘에 따라 사실 정확성을 분석함. 모델 크기 : 모델 크기가 클수록 factuality가 증...