NL-352, Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models, TMLR 2025
◼ Comment 이 논문은 멀티모달 처리할때 새로운 구조를 제안한거다. BAGEL, Cosmos v3가 대표적으로 MoT 구조이다. 요약 dense 모델로 멀티모달 처리하면 서로 충돌하는 경우가 있다 (제 연구랑 비슷한 finding) 실제 다른 스페이스에 모달리티가 저장되더라 (제 연구랑 비슷한 finding) learned router 기반 MoE가 expert utilization imbalance, load balancing, routing instability 문제를 가질 수 있고, 멀티모달 setting에서는 데이터 분포 차이 때문에 특히 speech validation에서 불안정할 수 있다. 즉 “모달리티별 router”라기보다는 learned expert routing이 멀티모달 분포에서 불안정함 (네모트론 speechx랑 비슷한 finding) 뭐 위 이유 및 이런저런 이유로 MoT 가는데 discrete token만써서 학습할때도 효율적/성능 좋고, diffusion 붙여서 학습하는 환경에서도 효율적/성능 좋다. 구조는 사실 특별한건 없고 FFN, Norm, expert-like module은 모달리티별로 따로 존재한다고 보면 되고, 모달리티 간 직접적인 token-level 정보 공유는 global self-attention에서 일어난다고 이해하면 된다. 즉 그냥 Transformer가 모달리티별로 존재하는데, attention만 같이 하는 느낌? 실험을 상당히 많이 했는데, MoT에서 텍스트 모달리티 블럭만 dense -> moe로 바꿔도 효율 좋다고 함 즉 하이브리드 형식도 시도 근데 어쨌거나 핵심은 모달리티별로 분리하는것 attention 빼고 다 분리할지 일부 분리할지 ablation 했음 FFN 분리가 가장 큰 이득을 주고, Q/K/V attention projection 분리를 추가하면 더 좋아진다. LayerNorm 분리는 추가 효과가 거의 작다. Full MoT가 전체적으로 가장...