본문 바로가기

논문 리뷰/Language Model

(148)
Mixture-of-Depths: Dynamically allocating compute in transformer-based language models Abstract 특정 계층에서 계산에 참여하는 토큰 수를 제한하여 FLOPs를 동적으로 할당하는 MoD(Mixture-of-Depths) 제안 [arXiv](2024/04/02 version v1) Implementing Mixture-of-Depths Transformers (1) Self-attention & MLP, (2) Residual connection (계산 우회) 중 하나로 토큰을 라우팅하는 설정을 고려한다. Routing schemes 라우팅 방식에는 2가지가 있다. (왼쪽) Token-choice routing은 각 토큰에 대해 전문가 선호도 분포를 생성하여 라우팅하는 것으로 불균형 할당 문제가 있다. (중간) Expert-choice routing은 반대로 각 전문가가 토큰을 선택하는..
Octopus v2: On-device language model for super agent Abstract Function calling on-device model에서 calling과 parameter 생성을 결합하여 추론 시간을 크게 줄임. [Model Card] [arXiv](2024/04/03 version v2) Methodology Function 호출은 2-stage process를 수반한다. 검색 모델을 통해 사용자 제공 query와 일치하는 function 찾기(e.g. app API, system API) Function과 query를 기반으로 function의 parameter 생성 본문에서는 n개의 각 function에 대한 특수 토큰 을 도입하고 GPT model이 function 예측과 parameter 생성을 동시에 수행하도록 한다. 다음과 같은 prompt temp..
Advancing LLM Reasoning Generalists with Preference Trees (Eurus) Abstract Multi-turn interaction 궤적을 수집하여 SFT, Preference Learning에 사용 [Github] [arXiv](2024/04/02 version v1) UltraInteract: Tree-structured Alignment Data for Reasoning Instruction은 root고 action은 node이다. Correct action의 모든 node와 correct action으로 끝나는 모든 궤적이 SFT에 사용될 수 있다. Node pair와 궤적 쌍을 선호도 학습에 사용할 수 있다. Instruction Selection Emphasizing Complexity, Quality, and Diversity 수학 문제 해결, 코드 생성, 논리적 ..
Gecko: Versatile Text Embeddings Distilled from Large Language Models Abstract Query-passage pair를 순진하게 사용하지 않고 재지정하여 text embedding dataset의 품질 향상 [arXiv](2024/03/29 version v1) Training Recipe for Gecko Pre-finetuning 일반적인 LLM 기반 text embedding model의 훈련 방법. 또한 Gecko의 사전 훈련. 대규모 QA, title-body pair 수집. (q-p pair) 그 후 사전 훈련된 LLM에 task t, query q, passage p를 입력하여 토큰 시퀀스를 얻고 대조 학습을 통해 fine-tuning 한다. FRet: Two-Step LLM Distillation LLM을 통해 FRet (Few-shot Prompted R..
sDPO: Don't Use Your Data All at Once Abstract Dataset을 분할하여 단계적으로 DPO 수행 [arXiv](2024/03/28 version v1) Stepwise DPO sDPO의 아이디어는 매우 단순하다. 데이터셋을 하위 집합으로 분할하여 단계적으로 DPO를 수행한다. 참조 모델의 로그 확률 계산은 DPO를 수행하기 위해 필요하다. 참조 모델은 목표 모델의 하한으로 작용하며, 이 하한을 점점 높임으로써 최종 모델의 성능을 향상할 수 있다는 것이다. 동일한 데이터셋으로 여러 번 학습하는 것과 뭐가 다르지? 라고 생각할 수 있지만 논문에 언급되어 있는 것처럼 쉬운 작업부터 시작해서 어려운 작업까지 단계적인 커리큘럼을 사용하면 복잡한 문제에 더 잘 적응할 수 있을 것 같긴 하다. 실험에서도 정량적으로 증명했다. Experiments ..
Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models Abstract 고해상도 이미지에 대한 추가 vision encoder를 통해 이미지 이해를 향상한 Mini-Gemini [Project Page] [Github] [arXiv](2024/03/27 version v1) Mini-Gemini Dual Vision Encoders LR encoder는 전통적으로 사용되는 CLIP-ViT, HR encoder는 CNN 기반 인코더인 ConvNeXt. Patch Info Mining (a) LR, HR 임베딩 간의 cross-attention. (b) LR 이미지를 업스케일하여 visual token의 수를 N → 5N으로 증강할 수 있다. 필요시 HR 이미지 또한 증강 가능. Text and Image Generation Visual token과 text t..
Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking Abstract LLM이 prompt를 읽거나 답변을 생성할 때 내부적으로 근거를 생각하며 추론하도록 하는 Quiet-STaR 제안 (쓰다 보니까 표기가 일관적이지 못한데, 근거 = 생각 거의 동의어입니다.) [Github] [arXiv](2024/03/18 version v2) 이전 연구 [STaR] Quiet-STaR Overview 병렬적 근거 생성 근거와 기본 예측 혼합 근거 생성 최적화 Parallel Generation 입력 시퀀스의 '모든 토큰'에 대해 다음 토큰을 예측하기 위한 근거 생성. 병렬로 빠르게 생성할 수 있다. 생각은 답변을 생성할 때뿐만 아니라 질문을 읽을 때도 발생할 수 있다. “Mixing” (Residual) Heads 처음에는 '생각'에 대해 익숙하지 않으므로 성능이 저..
STaR: Bootstrapping Reasoning With Reasoning Abstract 답변에 대한 이론적 근거를 생성하도록 하고 bootstrapping을 통해 지속적으로 향상 [Github] [arXiv](2022/05/20 version v2) Method Rationale Generation Bootstrapping (STaR Without Rationalization) 질문과 답변이 있는 초기 데이터셋 D = { X, Y }에 대해 근거 r (rationales)이 있는 예제 prompt set P = {X, R, Y}를 사용하여 in-context learning으로 LLM이 근거와 답변을 출력하도록 한다. 생성된 출력 중 정답을 생성한 출력만으로 새로운 데이터셋 Dn = {X, R, Y}을 구성하고 이 데이터셋으로 모델을 fine-tuning 한다. 이때 주의할..
DoRA: Weight-Decomposed Low-Rank Adaptation Abstract 가중치를 크기와 방향이라는 2가지 구성요소로 분해하여 효율적이고 정확하게 fine-tuning 할 수 있는 DoRA 제안 [Github] [arXiv](2024/03/05 version v3) Pattern Analysis of LoRA and FT Low-Rank Adaptation (LoRA) Weight Decomposition Analysis 가중치를 크기 벡터 m, 방향 행렬 V로 분해하여 LoRA와 Fine-tuning (모든 가중치)의 근본적인 차이를 밝힌다. VL-BART의 Q, V 가중치 행렬의 original weight, fine-tuned weight, merged LoRA weight를 분해하여 크기, 방향의 변화를 다음과 같이 측정한다. LoRA는 크기와 방향의 ..
LoRA+: Efficient Low Rank Adaptation of Large Models Abstract LoRA의 A, B 행렬에 각각 다른 학습률을 적용하여 더 효율적으로 훈련 [Github] [arXiv](2024/02/19 version v1) An Intuitive Analysis of LoRA Low-Rank Adaptation (LoRA) Initialization 일반적으로 a, b 중 하나를 0으로 초기화하며 b를 0으로 초기화할 경우 a는 많이 쓰이는 초기화 방식에 따라 입력 활성화의 크기 n에 반비례하는 분산을 가진다. 이는 큰 활성화의 생성을 방지해 학습을 안정화시킨다. y = Θ(x)는 y가 x에 대한 linear scale을 가진다는 것을 의미한다. y = k*x Learning rate 분석의 단순화를 위해 W* = 0으로 가정하면 gradients는 다음과 같이 ..
RAFT: Adapting Language Model to Domain Specific RAG Abstract 요약: Test domain을 알고 있다면 모델을 도메인에 특화하여 retriever가 가져온 문서를 스스로 필터링하도록 훈련할 수 있다. [Page] [arXiv](2024/03/15 version v1) Introduction LLM을 전문 도메인에 적용할 때 Retrieval Augmented Generation (RAG)와 fine-tuning을 고려할 수 있다. 하지만 RAG는 고정된 도메인, early access의 이점을 활용하지 못한다. Fine-tuning은 문서에 대한 접근 자체가 불가능하다. LLMs for Open-Book Exam Closed-Book Exam Fine-tuning은 외부 문서에 접근하지 못하는 closed-book exam과 같다. Open Boo..
MoAI: Mixture of All Intelligence for Large Language and Vision Models [Github] [arXiv](2024/03/12 version v1) Abstract Detection, OCR 등의 외부 CV 모델의 출력을 언어화하여 Vision-Language task에 활용하는 MoAI (Mixture of All Intelligence) 제안 MoAI: Mixture of All Intelligence MoAI는 vision encoder와 MLP, MoAI-Mixer가 장착된 MLM, 외부 CV를 활용하는 MoAI-Compressor로 구성되어 있다. Vision encoder = CLIP-L/14, MLM = InternLM Verbalization Verbalization이라는 과정을 통해 외부 CV model의 출력을 자연어 형식으로 변환. MoAI-Compressor..