NL-337, LongCat-Flash-Omni Technical Report, Preprint 2025
◼ Comment
- 여기서 참고할만한 것은, 텍스트,오디오,이미지 학습 stage와 학습 데이터 비율이다
- pretraining에서 학습 스테이지가 5개나 있고
- 1-4 stage에서는 오디오 discrete 토큰을 사용하고, 5 stage에서는 continuous feature을 활용하여 학습
- 출력은 항상 discrete 토큰이 나오는 형태
- 비전쪽은 내용 스킾
- 학습 데이터는
- ASR만을 사용한게 아니라 QA 형식의 audio 데이터도 pretraining 사용했다고하고
- post-training에서 이를 일부 재사용함
- 데이터 비율
- stage 0: text-only 16T
- 기존에 학습한 longcat 모델 사용
- stage 1: text+speech 5.1T
- text:audio = 2:1
- stage 2: text+speech+vision 3T
- text:audio = 2:1
- text:vision = 2:1
- image caption
- interleaved image-text
- 기본 speech-text
- stage 3: text+speech+vision 0.33T
- text:vision:speech = 2:1:1
- video (새로 추가)
- OCR / grounding / GUI
- STEM reasoning
- multi-image
- 고품질 데이터
- stage 4: text+speech+vision long context
- text:vision:speech = 2:1:1
- stage 5: audio encoder alignment
- LLM freeze / audio encoder만 학습
Abstract
우리는 실시간 오디오-비주얼 상호작용에서 뛰어난 성능을 보이는 5600억 파라미터 규모의 최신 오픈소스 옴니모달 모델 LongCat-Flash-Omni를 소개한다.
단순한 모달리티 시퀀스 모델링 작업에서 점점 더 복잡한 작업으로 확장되는 커리큘럼 기반 점진적 학습 전략을 채택함으로써, LongCat-Flash-Omni는 강력한 단일 모달 성능을 유지하면서도 종합적인 멀티모달 능력을 달성한다.
이 모델은 zero-computation expert를 포함한 고성능 Shortcut-connected MoE 구조를 사용하는 LongCat-Flash를 기반으로 하며, 효율적인 멀티모달 인식 및 음성 재구성 모듈을 통합한다.
총 560B 파라미터(활성화 27B)라는 매우 큰 규모에도 불구하고, LongCat-Flash-Omni는 저지연(real-time) 오디오-비주얼 상호작용을 구현한다.
학습 인프라 측면에서는, 대규모 멀티모달 학습에서 발생하는 데이터 및 모델 이질성을 처리하기 위해 모달리티 분리 병렬화(modality-decoupled parallelism) 방식을 제안한다. 이 방식은 텍스트-only 학습 대비 90% 이상의 처리량을 유지하는 높은 효율을 보여준다.
광범위한 평가 결과, LongCat-Flash-Omni는 오픈소스 모델 중 옴니모달 벤치마크에서 최고 수준의 성능을 달성했으며, 텍스트, 이미지, 비디오 이해뿐 아니라 음성 이해 및 생성 등 다양한 단일 모달 작업에서도 경쟁력 있는 성능을 보인다.
본 논문에서는 모델 아키텍처 설계, 학습 절차, 데이터 전략을 종합적으로 설명하며, 향후 연구와 개발을 촉진하기 위해 모델을 오픈소스로 공개한다.
1 Introduction
인간은 본질적으로 다양한 형태의 정보를 효율적으로 인지하고 통합할 수 있는 옴니모달 존재로, 시각과 청각 입력을 포함한 여러 정보를 활용하여 다양한 복잡한 작업을 수행할 수 있다. 이러한 다중 모달리티의 자연스러운 결합과 전달은 인간의 의사소통과 상호작용의 효율성과 효과를 크게 향상시킨다.
인공지능 일반지능(AGI)을 향한 흐름 속에서, 대규모 언어 모델(LLM) 분야는 이제 더욱 풍부한 멀티모달 능력과 효율적인 인간-AI 상호작용을 통합하는 방향으로 빠르게 발전하고 있다.
최근 Gemini-2.5, GPT-4o와 같은 모델들은 텍스트, 오디오, 이미지, 비디오 처리를 하나의 모델에 통합하여 효율적인 오디오-비주얼 상호작용을 가능하게 했다. 이러한 흐름을 따라 옴니모달 모델 연구가 활발히 진행되고 있다.
그러나 강력한 오프라인 멀티모달 이해 능력과 실시간 오디오-비주얼 상호작용 능력을 동시에 갖춘 옴니모달 모델을 학습하는 것은 매우 어렵다. 주요 어려움은 다음과 같다.
모달 간 이질성 (Cross-modal heterogeneity)
서로 다른 모달리티 간의 큰 차이는 효과적인 통합 표현과 결합 전략을 요구하며, 각 모달의 성능이 단일 모달 모델 대비 저하되지 않도록 해야 한다.오프라인 처리와 스트리밍 능력의 통합
오프라인 멀티모달 이해와 실시간 상호작용을 동시에 지원하는 것은 어렵다. 특히 스트리밍 환경에서는 시간 인식, 오디오-비주얼 동기화, 멀티턴 대화 관리 등이 필요하다.실시간 상호작용
스트리밍 오디오/비디오 입력과 음성 출력 모두를 지원하면서도 낮은 지연(latency)을 유지해야 하므로, 모델 구조와 시스템 설계에 높은 요구사항이 존재한다.학습 효율성
데이터와 모델의 이질성은 대규모 분산 학습 전략 설계를 어렵게 만든다.
본 논문에서는 이러한 문제를 해결하기 위해 여러 접근을 제안한다.
먼저, 다단계 대규모 프리트레이닝 파이프라인을 설계하여 텍스트 기반 모델에서 시작해 점진적으로 오디오와 비주얼 데이터를 통합한다.
텍스트백본에 이어서 하는게 국룰이긴하나 이렇게 하는 이유에 대한 고찰이 부족.
균형 잡힌 데이터 혼합과 early-fusion 전략을 통해 모달 간 깊은 통합을 달성하면서도 단일 모달 성능을 유지한다.
두 번째로, 오프라인 이해와 실시간 상호작용 간의 균형을 위해 human-in-the-loop 방식의 고품질 상호작용 데이터를 구축하고, 장기 메모리와 멀티턴 대화를 고려한다. 또한 기존 비전-텍스트 데이터를 활용해 음성 출력이 가능한 QA 데이터를 생성하여, 오프라인 능력을 상호작용 환경으로 확장한다.
세 번째로, 대규모 모델에서 저지연 오디오-비주얼 상호작용을 달성하기 위해 전체 모듈을 효율적으로 설계했다. LongCat-Flash의 ScMoE 구조를 백본으로 사용하고, 오디오/비디오 인코더와 chunk 기반 interleaving 전략을 도입한다. 또한 multi-codebook 기반 음성 복원을 통해 디코딩 효율을 개선했으며, 스트리밍 파이프라인을 통해 서버 지연을 최소화했다. 그 결과 560B 규모에서도 밀리초 수준 응답 속도를 달성했다.
네 번째로, 학습 효율성을 위해 modality-decoupled parallelism (MDP)을 제안한다. 이 방식은 LLM, 비전 인코더, 오디오 인코더를 독립적으로 최적화할 수 있게 하며, 텍스트-only 학습 대비 90% 이상의 처리량을 유지한다.
실험 결과, 본 모델은 옴니모달 벤치마크와 실시간 상호작용 작업에서 강력하고 일관된 성능을 보인다. Omni-Bench, WorldSense 등에서 SOTA를 달성했으며, 텍스트, 이미지, 비디오, 음성 이해 및 생성 등 다양한 단일 모달 작업에서도 경쟁력 있는 성능을 보인다. 또한 사용자 평가에서도 낮은 지연과 높은 품질의 오디오-비주얼 상호작용을 확인했다.
LongCat-Flash-Omni의 주요 특징은 다음과 같다.
SOTA 통합 옴니모달 모델: 하나의 모델에서 오프라인 이해와 실시간 상호작용을 동시에 수행
대규모 + 실시간 상호작용: 128K 컨텍스트와 낮은 지연을 기반으로 멀티턴 대화 및 시간 추론 지원
효율적인 early-fusion 학습: 멀티모달 통합과 단일 모달 성능 유지
효율적인 학습 인프라: modality-decoupled parallelism 기반 학습 효율 향상
오픈소스 공개: 연구 및 커뮤니티 발전 지원
이후 논문의 구성은 다음과 같다. Section 2에서는 모델 아키텍처를, Section 3과 4에서는 프리트레이닝과 포스트트레이닝을, Section 5와 6에서는 학습 인프라와 추론을, Section 7에서는 실험 결과를, Section 8에서는 결론을 다룬다.
2 Architecture
그림 2에 나타난 바와 같이, LongCat-Flash-Omni는 완전한 end-to-end 옴니모달 모델이다.
- 그림만 봐서는, 입력으로는 continuous feature가 들어가고 출력으로 discrete 토큰들이 생성되는 형태 같은데
- 근데 이렇게하면 멀티턴인 경우에, 생성된 음성토큰을 오디오로 바꾸고, 다시 인코더를 태워야하기 때문에 속도가 지연되지 않나?
- 따라서 모델의 음성 출력은 입력으로 다시 안들어가고, 모델의 출력은 텍스트 토큰으로 context 유지하는 듯
- 즉 오디오 feature은 입력 오디오에 대해서만 인코더 태워서 들어가는 형식
- 또한 오디오 입력으 continuous로 이해에 유리하고, 출력은 discrete 한 토큰이므로 생성에 유리
- 출력은 텍스트/오디오만 지원하는 형식
LongCat-Flash-Omni는 멀티모달 입력을 처리하기 위해 비전 인코더(vision encoder)와 오디오 인코더(audio encoder)를 사용한다.
이렇게 얻은 멀티모달 특징은 LLM에 입력되며, LLM은 텍스트와 오디오 토큰을 생성한다. 이후 오디오 디코더(audio decoder)가 LLM이 생성한 음성 토큰을 waveform으로 복원하여 자연스러운 음성 상호작용을 가능하게 한다.
모든 모듈은 효율적인 스트리밍 추론(streaming inference)을 지원하도록 설계되었다.
오디오 인코더, 비전 인코더, 오디오 디코더는 각각 약 6억 파라미터 규모의 경량 모듈이며, 대규모 LLM 백본은 LongCat 계열에서 제안된 효율적인 아키텍처를 기반으로 한다.
이 섹션에서는 먼저 LongCat-Flash-Omni를 구성하는 각 구성 요소를 설명한다. 여기에는
- 다양한 해상도와 종횡비를 지원하는 비전 인코더
- 오디오 인코더, 디코더 및 토크나이저
- LLM 백본
이 포함된다. 이후, 비디오 처리 전략과 저지연 실시간 오디오-비주얼 상호작용을 가능하게 하는 구조적 설계를 설명한다.
2.1 Vision Encoder
비전 인코더는 멀티모달 언어 모델에서 핵심적인 구성 요소이다.
이미지와 비디오와 같은 시각 입력을 효과적으로 인코딩하기 위해, LongCat-Flash-Omni는 LongCat-ViT라 불리는 잘 설계된 Vision Transformer(ViT)를 사용한다.
LongCat-ViT는 다양한 멀티모달 작업에서 높은 성능을 보이며, 다양한 해상도와 종횡비의 입력을 자연스럽게 처리하고, 이미지와 비디오 데이터를 통합적으로 인코딩할 수 있는 능력을 제공한다.
Architecture Design
LongCat-ViT는 기존 Vision Transformer의 기본 구조를 유지하면서, 다음과 같은 주요 개선을 포함한다:
이미지와 비디오 입력을 통합 처리하기 위한 통합 patchification 모듈
2D Rotary Position Embedding (2D-RoPE)
SwiGLU 활성화 함수
RMSNorm
LayerScale 모듈
Query-Key 정규화
이러한 설계 개선을 통해 기존 ViT 대비 더 강건하고 효율적인 아키텍처를 구현한다.
또한, 실시간 상호작용에서 비디오 프레임 인코딩의 계산 효율을 높이기 위해 상대적으로 경량화된 모델 구성을 사용한다.
일반적인 설정을 따르며, 시각-언어 정렬을 위해 pre-normalization을 적용한 2-layer MLP를 vision-language projector로 사용한다.
또한 고해상도 입력에서 발생하는 계산량 증가를 줄이기 위해 공간 차원에서 2× pixel-unshuffle 연산을 적용한다.
Native Resolution Encoding
기존 ViT 모델들(예: CLIP, SigLIP)은 입력 이미지를 고정된 해상도로 리사이즈하는 방식이 일반적이며, 이로 인해 특히 극단적인 종횡비나 고해상도 이미지에서 정보 손실이 발생할 수 있다.
이를 해결하기 위해 LongCat-ViT는 입력을 원본 해상도(native resolution) 그대로 인코딩한다.
이를 통해 시각 데이터의 공간적 및 문맥적 정보를 유지하여 복잡한 시각적 이해 및 추론 능력을 향상시킨다.
각 이미지 또는 비디오 프레임에 대해:
패치 개수가 특정 범위(학습 시 576~5832)에 들어가면 최소한의 리사이즈만 수행
범위를 벗어나면 종횡비를 유지하면서 해당 범위로 리스케일
하는 방식으로 처리한다.
Contrastive Vision-Language Pretraining
LongCat-ViT는 두 가지 적응 전략을 결합한 점진적 학습 방식을 사용한다:
해상도 적응 (progressive resolution adaptation)
초기에는 낮은 고정 해상도(예: 224)로 학습
이후 native resolution로 fine-tuning
모달리티 적응 (progressive visual modality adaptation)
초기에는 이미지 중심 학습
최종 단계에서 비디오 데이터를 추가하여 계산 비용을 줄임
초기 학습 안정성을 높이기 위해, 사전 학습된 비전 모델의 feature distillation을 보조 목표로 사용하며, 학습 후반으로 갈수록 해당 loss의 비중을 줄인다.
이 모델은 contrastive pretraining 단계에서 총 146억 개 샘플로 scratch부터 학습된다.
2.3 LLM Backbone
LongCat-Flash-Omni는 LongCat-Flash를 기반으로 구축된 5600억 파라미터 규모의 Mixture-of-Experts (MoE) 언어 모델이다.
LongCat-Flash는 Multi-head Latent Attention (MLA), shortcut-connected MoE, 그리고 zero-computation experts를 채택하여, 토큰마다 가변적인 계산을 수행한다. 이 과정에서 186억~313억 파라미터(평균 270억)가 활성화된다.
이러한 특성은 LongCat-Flash-Omni에서도 유지되며, 멀티모달 이해와 오디오-비주얼 상호작용으로 확장된다.
2.4 Video Strategy and Streaming Audio-Visual Interaction
LongCat-Flash-Omni는 강력한 오프라인 멀티모달 이해와 저지연 오디오-비주얼 상호작용을 자연스럽게 통합하도록 설계되었다. 오디오와 비주얼 스트림은 각각 audio encoder와 vision encoder에 의해 독립적으로 처리된다. 이후 추출된 feature는 시간적으로 정렬되고, 동기화된 chunk로 나뉘어 interleaving된 뒤 LLM decoder에 입력되어 멀티모달 이해를 수행한다. 본 절에서는 LongCat-Flash-Omni의 비디오 처리 전략과, 스트리밍 상호작용을 지원하기 위한 오디오-비주얼 입력 처리 방식을 설명한다.
2.4.1 Video Strategy
비디오 처리는 길이가 수 초에서 수 시간까지 다양하고 해상도 또한 크게 달라지는 특성 때문에 효율적으로 처리하기 어려운 과제이다. 이러한 문제를 해결하기 위해, 우리는 모델 성능과 계산 효율 사이의 균형을 맞추기 위한 여러 전략을 도입한다.
Dynamic Video Frame Sampling
기본적으로 초당 2프레임(2 FPS)의 샘플링 속도를 사용하며, 비디오 길이에 따라 동적으로 조정한다.
학습 시 짧은 비디오는 더 높은 프레임 속도로 샘플링하여 더 밀집된 시간 정보를 확보하며, 최소 16프레임을 유지한다. 반대로 매우 긴 비디오는 최대 프레임 수 제한에 따라 균일하게 샘플링한다. 이러한 프레임 제한은 메모리 사용량을 제어하고 계산 효율을 유지하는 데 기여한다.
Textual Timestamps
각 비디오 프레임 앞에 타임스탬프를 텍스트 형태로 추가하여 모델의 시간 인식 능력을 강화한다.
예를 들어, t초 시점의 프레임은 “Second{t}”라는 텍스트를 해당 시각 토큰 앞에 추가한다.
입력 시퀀스는 다음과 같은 형태를 갖는다:
“Second{i}||Vi||Second{j}||Vj||…”
여기서 Second{i}는 텍스트 타임스탬프, Vi는 해당 시점의 시각 토큰, “||”는 연결을 의미한다.
Hierarchical Token Compress in Video Inputs
비디오 입력은 다음 세 단계로 압축된다:
Section 2.1에서 설명한 방식으로 각 프레임을 패치 수 제한에 맞게 리사이즈
시각 인코더에 입력하기 전에 temporal stride 2의 3D convolution을 적용하여 프레임 수를 N → N/2로 축소
시각 토큰이 일정 개수를 초과할 경우, 추가적으로 보간 기반 다운샘플링 수행
2.4.2 Streaming Audio-Visual Interaction
스트리밍 오디오-비주얼 상호작용 메커니즘은 LongCat-Flash-Omni의 핵심 구성 요소로, 비디오와 음성 신호를 실시간으로 통합하여 상호작용 커뮤니케이션을 지원한다. 제안된 오디오-비주얼 상호작용 프레임워크는 다음 두 가지 핵심 측면으로 특징지어진다.
Streaming Audio-Visual Feature Interleaving
오프라인 오디오-비주얼 이해 작업에서는 오디오와 비주얼 feature를 시퀀스 수준에서 연결할 수 있다. 그러나 실시간 오디오-비주얼 상호작용에서는 사용자 질의가 입력된 이후의 응답 지연을 최소화하기 위해, 오디오 및 비디오 스트림의 feature를 가능한 한 빨리 LLM 백본에 prefill해야 한다.
이를 위해 우리는 시간적으로 동기화된, chunk 단위의 오디오-비주얼 feature interleaving 메커니즘을 설계한다.
오디오-비주얼 feature chunk는 다음과 같은 형태로 구성된다:
“<|timestamp|>:<|video-tokens|><|audio-start-token|><|audio-tokens|><|timestamp|>:<|video-tokens|><|audio-tokens|>...<|audio-end-token|>”
여기서 timestamp는 2.4.1절에서 설명한 바와 같이 텍스트 형태로 표현된다.
Sparse-Dense Sampling Strategy
사용자와 모델 간 turn-taking 상호작용 동안 계산 비용과 정보 손실 간의 균형을 최적으로 맞추기 위해 sparse-dense 샘플링 전략을 설계한다.
구체적으로, 정보 입력 구간에서는 가능한 많은 오디오-비주얼 정보를 보존하기 위해 chunk 크기를 1초로 설정하고, 더 높은 밀도의 비디오 샘플링 속도(2 FPS)를 사용한다. 반면, 모델 응답 구간에서는 비디오 프레임을 더 낮은 샘플링 속도(즉, chunk 크기 2초, 0.5 FPS)로 버퍼링하고, 이를 다음 사용자 턴 앞에 prepend한다.
이 설계는 모델 응답 구간 동안 시각 정보 유지와 계산 오버헤드 간의 균형을 효과적으로 맞추며, 고품질 오디오-비주얼 상호작용을 가능하게 한다. 이는 커뮤니티의 다른 옴니모달 모델과 구별되는 핵심 능력이다.
3 Pre-Training
1. 전체 데이터 구성 (Data Curation 개요)
이 모델은 총 2.5T tokens 이상의 대규모 멀티모달 코퍼스로 학습된다.
데이터는 다음과 같은 7가지 축으로 구성된다:
Audio data
Image-text data (caption + interleaved)
OCR / Grounding / GUI data
STEM data
Multi-image data
Video data
Long-context multimodal data
즉, 단순히 텍스트+이미지가 아니라 음성·영상·GUI·문서·과학문제까지 포함된 매우 heterogeneous한 mixture이다.
2. Audio 데이터
(1) Speech-Text Interleaved
수천만 시간 규모의 음성 데이터
VAD → ASR cross-check → alignment → filtering 파이프라인
(Ai, Ti)구조로 쪼개고 일부 modality masking
👉 핵심:
speech + text를 하나의 sequence로 학습 (early fusion)
modality dropout 형태로 robustness 확보
(2) Audio Understanding
captioning, QA, acoustic scene, paralinguistic 등 포함
open-source + proprietary 혼합
👉 특징:
단순 ASR이 아니라 “음성 의미 + 감정 + 환경 이해”까지 포함
3. Image-Text 데이터
(1) Image Caption Data
multi-stage filtering + re-captioning
SigLIP similarity 기반 필터링
cluster 기반 resampling (long-tail 보정)
👉 특징:
단순 웹 데이터가 아니라 재구성된 high-quality caption dataset
(2) Interleaved Image-Text
여러 이미지 + 텍스트가 섞인 sequence
74% 데이터 pruning 후 quality 유지
👉 추가:
교육 영상 기반 in-house dataset 구축
ASR + OCR + LLM refinement
👉 핵심:
멀티 이미지 reasoning + in-context 능력 강화
4. OCR / Grounding / GUI 데이터
OCR: 문서, 표, 수식, handwriting
Grounding: detection + localization QA
GUI:
perception (스크린샷 이해)
grounding (UI 요소 위치)
planning (action sequence)
👉 특징:
단순 vision이 아니라
→ document understanding + agent capability까지 포함
5. STEM 데이터
약 15M image-text pairs
K12 ~ 대학 수준 문제
MCQ + open-ended QA
👉 핵심:
reasoning capability 강화용 high-quality subset
6. Multi-image 데이터
taxonomy 기반 (emotion, vehicle, clock 등)
open-source + synthetic 생성
👉 역할:
fine-grained visual reasoning
7. Video 데이터
public dataset + in-house 데이터 혼합
구성:
caption
temporal QA
action recognition QA
👉 특징:
temporal reasoning + long sequence 학습 핵심
8. Long-context Multimodal 데이터
긴 영상 (>3분) + interleaved text-image
long-video QA
👉 핵심:
long-context reasoning + memory 학습
9. 학습 단계별 데이터 비율 (핵심)
논문에서 가장 중요한 부분은 stage별 데이터 mixture 비율이다.
Stage-0 (Text only)
16T tokens (텍스트만)
Stage-1 (Text + Speech)
총 5.1T tokens
비율:
text : audio = 2 : 1
👉 특징:
speech를 text space에 align
Stage-2 (Text + Speech + Vision)
총 3T+ tokens
비율:
text : audio = 2 : 1 (유지)
text : vision = 2 : 1
👉 즉:
대략
text : vision : audio = 2 : 1 : 1
Stage-3 (Full multimodal + video)
총 0.33T tokens
비율 유지:
text : vision : speech = 2 : 1 : 1
👉 특징:
video + OCR + GUI + STEM 포함
PPL 기반 dynamic sampling
Stage-4 (Long context)
context 확장 (8K → 128K)
추가:
long-context data 25% 추가
비율 유지:
2 : 1 : 1
Stage-5 (Audio encoder alignment)
LLM freeze
audio encoder만 학습
👉 데이터 비율 개념보다는
representation alignment 단계
10. 전체 요약 (핵심 구조)
데이터 구성
2.5T+ tokens
audio / image / video / OCR / GUI / STEM / long-context 포함
핵심 비율
| Stage | Modalities | Ratio |
|---|---|---|
| Stage-0 | text | - |
| Stage-1 | text + audio | 2 : 1 |
| Stage-2 | + vision | 2 : 1 : 1 |
| Stage-3 | + video | 2 : 1 : 1 |
| Stage-4 | + long-context | 2 : 1 : 1 (25% long-context 추가) |
4 Post-Training
Post-training은 한 줄로 요약하면:
“모델을 쓸 수 있게 만드는 단계 (alignment + interaction + reasoning)”
구성은 2단계:
SFT (Supervised Fine-Tuning)
RL (DPO 기반 reinforcement learning)
1. 전체 구조
Post-training의 목표는:
instruction following
multimodal reasoning
real-time interaction
human alignment
👉 pretraining이 “능력 학습”이라면
👉 post-training은 “행동 교정 + 사용자 대응 능력”이다
2. SFT (Supervised Fine-Tuning)
2.1 데이터 구성
SFT는 여러 종류 데이터 mixture로 구성됨:
(1) Image-Text SFT 데이터
구성:
caption
VQA
multi-image reasoning
OCR / document / chart
grounding
STEM reasoning
특징:
LLM-as-a-judge로 품질 필터링
약 3M samples
👉 핵심:
high-quality instruction dataset
(2) Video-Text SFT 데이터
구성:
video understanding
temporal reasoning
segmentation / grounding
classification
데이터:
약 700K samples
특징:
48개 capability taxonomy로 sampling
👉 핵심:
temporal + causal reasoning 강화
(3) Audio Understanding 데이터
ASR / AST / paralinguistic / audio QA
pretraining 데이터 일부 재사용
👉 목적:
audio encoder ↔ LLM semantic alignment 강화
(4) Vision-Speech QA
구성:
입력: image/video + speech prompt
출력: speech
생성 방식:
기존 QA → LLM rewrite → TTS 변환
👉 핵심:
“보고 말하기” 능력 학습
(5) Audio-Visual Understanding 데이터
구성:
video + audio 기반 QA
interleaved chunk 형태
특징:
시간 정렬된 multimodal reasoning
👉 핵심:
audio + vision joint reasoning
(6) Multimodal Interaction 데이터 (핵심)
(a) Speech-to-Speech 데이터
multi-turn 대화
다양한 감정 / 억양 / dialect
TTS 기반 생성
👉 목적:
자연스러운 음성 대화
(b) Audio-Visual Interaction 데이터
구성:
multi-turn dialogue
referential reasoning
memory dependency
생성 방식:
모델로 QA 생성
자동 filtering (LLM judge)
human refinement
👉 핵심:
real-world interaction 시뮬레이션
2.2 SFT 학습 방식
중요 설정:
audio encoder freeze
나머지 (LLM + projector 등) 학습
👉 이유:
low-level acoustic feature 유지 + alignment만 학습
Optimizer:
AdamW
LR: 1e-5 → cosine decay
batch size: 1024
1 epoch
2.3 SFT 핵심 요약
👉 데이터 특징:
multimodal + interaction 중심
synthetic + human refined
👉 학습 전략:
partial freezing (audio encoder)
instruction mixture training
3. RL (Reinforcement Learning, DPO)
3.1 기존 문제
기존 DPO는:
text-only
또는 text/audio 따로 최적화
👉 문제:
multimodal coherence 깨짐
3.2 이 논문의 해결
👉 joint DPO (text + audio 동시 최적화)
3.3 Loss 구조
👉 특징:
text head + multiple audio head 동시에 학습
α : β = 1 : 1
3.4 데이터 구성
두 가지:
(1) General DPO 데이터
safety
helpfulness
style
(2) Model-generated 데이터
SFT 모델로 생성
한 prompt당 6개 rollout
preference pair 구성
👉 평가:
human + LLM judge 혼합
3.5 학습 설정
batch size: 256
LR: 1e-6 → cosine decay
KL regularization: 0.1
👉 목적:
SFT에서 너무 벗어나지 않도록
4. 전체 흐름 요약
Pre-training vs Post-training
| 단계 | 역할 |
|---|---|
| Pre-training | 능력 학습 (understanding) |
| SFT | instruction + interaction 학습 |
| RL (DPO) | behavior alignment |
핵심 구조
Pretraining → SFT → DPO
능력 사용법 사람처럼8 Conclusion
Reference










댓글
댓글 쓰기