고즐렁이

  슈퍼-선형화(Super-Linearization)와 최소 관측 가능 개수에 대한 최신 연구 1. 슈퍼-선형화(Super-Linearization)란? 슈퍼-선형화 는 비선형 동적 시스템을 보다 높은 차원의 공간에서 등가적인 선형 시스템으로 변환하는 방법이다. 이는 추가적인 관측 가능 함수(observable functions) 를 도입하여 이루어진다. 이러한 관측 가능 함수(이하 관측 변수 )를 적절히 선택하면, 원래의 비선형 시스템 궤적이 더 높은 차원의 선형 시스템 궤적의 일부로 해석될 수 있다. 즉, 적절한 고차원 상태를 포함하면 비선형 동역학이 선형적으로 변환될 수 있으며, 이는 유한 차원의 쿠프만(Koopman) 임베딩 을 통해 구현된다. 슈퍼-선형화의 주요 동기는 비선형 시스템을 선형 시스템 이론을 활용하여 다룰 수 있도록 만드는 것 이다. 예를 들어, 원래 비선형 시스템에서 직접 적용하기 어려운 선형 제어 및 관측기(observer) 설계를 가능하게 한다. 이러한 접근법은 최근 데이터 기반 제어(data-driven control) 및 쿠프만 연산자 이론(Koopman operator theory)과 함께 더욱 주목받고 있다. 2. 슈퍼-선형화에서 최소한의 관측 변수 개수 (Ko & Belabbas, 2024) 연구 분야: 비선형 제어 이론, 동적 시스템 연구 질문: 주어진 시스템을 슈퍼-선형화하기 위해 필요한 최소한의 관측 변수 개수는 얼마인가? 이에 대한 연구는 Ko와 Belabbas(2024)에 의해 진행되었으며, 해당 논문은 IEEE Control Systems Letters 에 게재되었다. 이 연구에서는 두 가지 유형의 관측 변수를 정의한다. 가시 관측 변수(visible observables): 원래 상태 변수(state variables) 또는 시스템 방정식에서 명시적으로 존재하는 출력 변수(output variables)와 관련된 관측 변수 숨겨진 관측 변수(hidden observabl...

NL-253, CrossIn: An Efficient Instruction Tuning Approach for Cross-Lingual Knowledge Alignment, Sumeval 2025

이미지
◼ Comment consistency을 향상시키는 연구를 처음본다 여기서도 비교연구를 언급안하는걸봐서 아마 첫 시도 아닐까? 싶기도 한데.. 일단 pretrained LLM 가져와서 여기서 제안한 데이터로 학습한다 제안한 데이터 Base 수학 및 코딩과 같은 다양한 태스크를 포함하는 Open-Platypus(Lee et al., 2023)를 활용하여 기본 학습을 수행한다. CrossIn 명령문(Instruction)과 출력(Output)이 서로 다른 두 개의 언어로 제공되는 데이터셋이다. 이러한 데이터를 LUD라고 여기서 부르는거 같고, alpaca 데이터를 번역을 통해 만든듯 Trans alpaca 명령문의 번역 쌍(translation pairs for instructions)으로 구성된 데이터셋이다. Table 2을 보면 예시가 나와있음 테이블 3을 보면 전체적으로 CrossIn 데이터로 학습했을 때, consistency가 향상되는 경향임을 볼 수 있다 평가 데이터셋은 테이블 1을 보면 잘 보여주는데 기존의 Cross-MMLU, Cross-LogiQA 데이터가 있긴한데, 샘플수가 엄청적다 따라서 Cross-XQuAD을 만들어서 (XQuAD 기반에 chatgpt 사용한듯) 평가셋으로 사용 데이터를 살펴봐야겠지만, 기본적으로 보기 선택형 문제이다. (수능문제 같은) 이 데이터가 여러 언어로 병렬로 구성되는 데이터들이라고 보면 되는듯 평가 방법 consistency는 직관적으로 언어간의 동시에 답변인 문제 개수를 카운트 하는 걸 기반으로 계산한다 추가적으로 accuracy을 계산하여 조화평균을 최종 메트릭으로 사용한다 예) 영어 성능 & (영어, 중국어, 독일어)가 동시에 정답맞춘 consistency의 평균 여기서 영어는 고정인거 같음? 그리고 동시에 틀린거는 고려안하는거 같음 WHY? Abstract 대형 언어 모델(LLM)의 다국어 처리 능력은 훈련 데이터의 불균형한 분포와 영어 중심의 인스트럭션 튜닝(instruction tuning)으로 인...

NL-252, Beneath the Surface of Consistency: Exploring Cross-Lingual Knowledge Representation Sharing in LLMs, Preprint 2024

이미지
◼ Comment 빠르게 번역돌려서 봐봤는데 LLM consistency에 대한 분석을 했다고 볼 수 있다 즉 consistency을 높이려고 시도를 했다기 보다는, 기존의 LLM의 consistency을 파악하고 further pretraining하면 어떻게 되는지 살펴본 느낌? 여기서 말하는 consistency에 대한 개념을 살펴보자 "한국의 수도는?" --> "서울" "What is the capital of Korea?" --> "seoul" 둘다 답을 맞췄다고해서 LLM이 해당 지식을 한글,영어에 대해 공유하고 있지 않을 수 있다. 즉 LLM이 한글에서도 해당 지식을 학습하고 영어에 대해서도 해당 지식을 학습했었다면, 그냥 다른 latent space에 해당지식을 가지고 있는 느낌일 것이다 따라서 지식 편집이라는 것을 제안한다 지식 편집 "한국의 수도는?" --> "부산" 이런 데이터를 LLM에게 학습시켜서 영어로 질문했을때 "busan"이 나온다면 언어간의 지식을 공유한다고 보는 것이고 "seoul"이 그대로 나온다면 지식을 공유하지 않는 것이라 보는 것이다 따라서 답변이 단순히 같게 나오는 metric 과 지식을 공유하는 것을 측정한는 metric 2개를 제안하여 분석을 한다 데이터는 gemini, claude, 사람을 통해 구축했다고 하고.. 모델은 7b 사이즈의 다양한 LLM을 썻음 지식 편집 방법은 일반적인 FT와 ROME, MEMIT 이라는 것을 활용했다고 함 결론 (그림 2) 일반적으로 LLM은 언어간의 성능차가 심하다는 것을 보여줌 CKC(지식일관성)와 CKR(지식공유)이 꼭 비례관계에 있지 않음 언어쌍별에 대해 결과가 다 다르다고 보면됨 tokenization에의해 발생하는 편향에 의해 CKC, CKR 성능에 영향을 끼치는것으로 추정 즉 비슷한 문자 체계간에는 지식 전이가 잘 ...