NL-358, AA-Omniscience: Evaluating Cross-Domain Knowledge Reliability in Large Language Models, Preprint 2025

Reference https://arxiv.org/pdf/2511.13029

NL-357, Second Guess: Detecting Uncertainty Through Abstention and Answer Stability in Small Language Models, Preprint 2026

◼ Comment 일단 여기서는 벤치마크를 새로 만든것은 아니고 기존 벤치마크에 IDK 추가해서 평가를 다르게 해본 것 원래 벤치마크에서의 예측과, 해당 벤치마크에 IDK 추가해서 예측과 다르면 모델이 모르는 질문이라고 판단 정확히는 모르는 질문이라기보단 불안정하다라는 의미긴함 여기서 평가지표는 Composite Risk = (Ni + Nca) / N × 100를 정의함 Ni  = 최종적으로 틀린 답을 낸 개수 Nca = 원래 prompt에서는 맞았는데, Second Guess 때문에 abstain된 개수 N   = 전체 문제 수 만약 100개의 문제가 있고 60개 정답 40개의 오답이라고 했을때 기존 Composite Risk (CR) = 40임 근데 IDK 추가해서 한번더 예측하게해서 위에서 말한 IDK 로직을 돌린다 했을때 60개 정답 => 52개 그대로 정답 8개 IDK 판단 40개 오답 => 15개 그대로 오답 25개 IDK 판단 그러면 바뀐 8개는 안좋은거, 바뀐 25개는 좋게 된거 CR = 15+8 = 23이 된 것 즉 이렇게 모델을 다르게 평가해봤다는 것 하지만 이래서 CR이 어떤 의미가 있냐는 모름 실제 이렇게 IDK을 판단하게 좋은 방법인지를 보여주지는 못함 내가 생각했을때는 기존 acc로 평가하면 모델의 순위가 있을텐데, 이를 CR로 바꿔서 평가하면 모델의 순위가 바뀐다고 해보자. 이 바뀐 순위가 실제 모델을 정성적으로 평가한 사람의 순위가 일치하면 주장이 일치되는 느낌 이 논문은 작은 언어모델(SLM)이 언제 틀릴 가능성이 높은지, 모델 내부 확률이나 학습 없이 prompt 두 번만으로 감지하자 는 논문입니다. 논문 제목은 Second Guess: Detecting Uncertainty Through Abstention and Answer Stability in Small Language Models 입니다. 핵심 문제는 SLM이 모를 때도 자신 있게 틀린 답을 고르는 현상입니다. 저자들은 특히...

Audio-023, AQUA-Bench: Beyond Finding Answers to Knowing When There Are None in Audio Question Answering, ICASSP 2026

Reference https://arxiv.org/pdf/2601.12248

Audio-022, From Text to Talk: Audio-Language Model Needs Non-Autoregressive Joint Training, ICLR 2026

이미지
◼ Comment LALM에 대한 새로운 학습 방식을 제안한 것. AR와 NAR을 섞어서 학습 discrete token으로만 학습하는 것 텍스트 부분은 기존대로 AR로 학습 오디오 부분이 이제 diffusion 스타일로 학습하는 것 근데 실제로 보면 BERT style이랑 거의 똑같 밑에 부분 학습 메커니즘을 보면 됨 즉 오디오 spans에서는 양방향 attention이 일어나는 것 예전에 uniLM인가? 그거랑 비슷한 컨셉인듯 Text span:   이전 context + 현재 text prefix만 봄   => causal attention   => next-token AR loss Audio span:   이전 context는 봄   같은 audio span 내부는 서로 봄   미래 span은 못 봄   => span 내부 bidirectional attention   => masked-token denoising loss 내가 궁금했던 것은 그럼 이게 뭐가 diffusion 이지? 이것은 생성할때 다르게 작동한다. 논문에서는 이거를 block-wise masked diffusion generation 라고 함.  오디오 부분을 생성해야하는 상황: context <SOA> [M] [M] [M] [M] ... [M]  step 1: [M] [M] [M] [M] [M] [M] [M] [M]  -> confidence 높은 2개만 확정 [M] a2 [M] [M] a5 [M] [M] [M] step 2: 다시 forward  -> 몇 개 더 확정 a1 a2 [M] a4 a5 [M] [M] a8 step 3: 다시 forward  -> 나머지 확정 a1 a2 a3 a4 a5 a6 a7 a8 여기서 [M] fixed length는 하이퍼 파라미터 개념인데, 32를 사용한다고 함 LLaDA 에서 ...

NL-352, Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models, TMLR 2025

이미지
◼ Comment 이 논문은 멀티모달 처리할때 새로운 구조를 제안한거다.  BAGEL, Cosmos v3가 대표적으로 MoT 구조이다. 요약 dense 모델로 멀티모달 처리하면 서로 충돌하는 경우가 있다 (제 연구랑 비슷한 finding) 실제 다른 스페이스에 모달리티가 저장되더라 (제 연구랑 비슷한 finding) learned router 기반 MoE가 expert utilization imbalance, load balancing, routing instability 문제를 가질 수 있고, 멀티모달 setting에서는 데이터 분포 차이 때문에 특히 speech validation에서 불안정할 수 있다. 즉 “모달리티별 router”라기보다는 learned expert routing이 멀티모달 분포에서 불안정함 (네모트론 speechx랑 비슷한 finding) 뭐 위 이유 및 이런저런 이유로 MoT 가는데 discrete token만써서 학습할때도 효율적/성능 좋고, diffusion 붙여서 학습하는 환경에서도 효율적/성능 좋다. 구조는 사실 특별한건 없고  FFN, Norm, expert-like module은 모달리티별로 따로 존재한다고 보면 되고, 모달리티 간 직접적인 token-level 정보 공유는 global self-attention에서 일어난다고 이해하면 된다. 즉 그냥 Transformer가 모달리티별로 존재하는데, attention만 같이 하는 느낌? 실험을 상당히 많이 했는데, MoT에서 텍스트 모달리티 블럭만 dense -> moe로 바꿔도 효율 좋다고 함 즉 하이브리드 형식도 시도 근데 어쨌거나 핵심은 모달리티별로 분리하는것 attention 빼고 다 분리할지 일부 분리할지 ablation 했음 FFN 분리가 가장 큰 이득을 주고, Q/K/V attention projection 분리를 추가하면 더 좋아진다.  LayerNorm 분리는 추가 효과가 거의 작다.  Full MoT가 전체적으로 가장...