본문 바로가기

논문 리뷰

(452)
LoRA+: Efficient Low Rank Adaptation of Large Models Abstract LoRA의 A, B 행렬에 각각 다른 학습률을 적용하여 더 효율적으로 훈련 [Github] [arXiv](2024/02/19 version v1) An Intuitive Analysis of LoRA Low-Rank Adaptation (LoRA) Initialization 일반적으로 a, b 중 하나를 0으로 초기화하며 b를 0으로 초기화할 경우 a는 많이 쓰이는 초기화 방식에 따라 입력 활성화의 크기 n에 반비례하는 분산을 가진다. 이는 큰 활성화의 생성을 방지해 학습을 안정화시킨다. y = Θ(x)는 y가 x에 대한 linear scale을 가진다는 것을 의미한다. y = k*x Learning rate 분석의 단순화를 위해 W* = 0으로 가정하면 gradients는 다음과 같이 ..
RAFT: Adapting Language Model to Domain Specific RAG Abstract 요약: Test domain을 알고 있다면 모델을 도메인에 특화하여 retriever가 가져온 문서를 스스로 필터링하도록 훈련할 수 있다. [Page] [arXiv](2024/03/15 version v1) Introduction LLM을 전문 도메인에 적용할 때 Retrieval Augmented Generation (RAG)와 fine-tuning을 고려할 수 있다. 하지만 RAG는 고정된 도메인, early access의 이점을 활용하지 못한다. Fine-tuning은 문서에 대한 접근 자체가 불가능하다. LLMs for Open-Book Exam Closed-Book Exam Fine-tuning은 외부 문서에 접근하지 못하는 closed-book exam과 같다. Open Boo..
Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation (SD3-Turbo, LADD) Abstract 픽셀 기반인 Adversarial Diffusion Distillation과 달리 사전 훈련된 잠재 확산 모델의 generative feature를 활용하여 ADD의 한계를 극복한 Latent Adversarial Diffusion Distillation (LADD) 제안 [arXiv](2024/03/18 version v1) Introduction Adversarial Diffusion Distillation (ADD)에서는 판별기의 backbone으로 DINOv2 encoder를 사용하는데, 이는 단점이 있다. 판별기의 훈련 해상도가 518×518로 제한된다. 판별기의 피드백 수준을 제어할 수 없다. 판별기가 잠재 공간에서 훈련되지 않아 RGB 공간으로 디코딩해야 한다. Backgro..
MoAI: Mixture of All Intelligence for Large Language and Vision Models [Github] [arXiv](2024/03/12 version v1) Abstract Detection, OCR 등의 외부 CV 모델의 출력을 언어화하여 Vision-Language task에 활용하는 MoAI (Mixture of All Intelligence) 제안 MoAI: Mixture of All Intelligence MoAI는 vision encoder와 MLP, MoAI-Mixer가 장착된 MLM, 외부 CV를 활용하는 MoAI-Compressor로 구성되어 있다. Vision encoder = CLIP-L/14, MLM = InternLM Verbalization Verbalization이라는 과정을 통해 외부 CV model의 출력을 자연어 형식으로 변환. MoAI-Compressor..
Chronos: Learning the Language of Time Series [Github] [arXiv](2024/03/12 version v1) Abstract LLM architecture를 이용한 시계열 모델링 프레임워크 Chronos: A Language Modeling Framework for Time Series 본 연구는 아직 실험적인 단계로 아직 많은 보완이 필요하다는 것을 미리 알림. Time Series Tokenization 시계열 x: C는 과거 context이며 H는 예측 범위. Scaling 시계열 데이터는 원래의 특성과 패턴을 유지하는 것이 중요하기 때문에 평균을 0으로 정규화하지 않는다. Quantization 실수 값인 시계열 데이터를 B개의 bin으로 나누어 양자화한다. 그리고 1 ~ B, PAD, EOS를 time series vocabular..
Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM [arXiv](2024/03/12 version v1) Abstract LLM을 각 도메인에 대해 개별 훈련한 후 단일 MoE 모델로 통합 Branch-Train-MiX Branch-Train-Merge와 Mixture-of-Experts를 결합하였다. Branch & Train: Embarrassingly Parallel Expert Training 각 LLM을 각 데이터셋에 대해 훈련한다. Branch-Train-Merge에서는 이렇게 훈련된 LLM 중 사용할 LLM들을 선택하고 단순히 평균을 계산하였다. MiX: Combining Separate Experts to be a Mixture-of-Experts Feedforward layer에서는 MoE와 같은 구조를 사용하며 self-attentio..
Adding NVMe SSDs to Enable and Accelerate 100B Model Fine-tuning on a Single GPU (Fuyou) [arXiv](2024/03/11 version v1) Abstract 단일 GPU 상용 서버에서 대규모 모델을 fine-tuning 할 수 있도록 ZeRO-Infinity를 개선한 Fuyou 제안 Background Memory Footprint Gradient는 역전파 단계에서 활성화와 오류 값에 대해 계산되며 최적화 단계에서 소비된다. 따라서 활성화는 역전파 단계에서 소비되며 parameter, optimizer state는 훈련 과정 전반에 걸쳐 유지된다. Activation Checkpointing 또한 메모리를 절약하기 위해 활성화를 heterogeneous storage에 offload 하고 역전파 시 가져올 수 있다. ZeRO (Zero Redundancy Optimizer) ZeRO, Z..
Scaling Rectified Flow Transformers for High-Resolution Image Synthesis (Stable Diffusion 3) [Page] [arXiv](2024/03/05 version v1) 텍스트 생성 능력이 엄청나게 향상되었다. SD3 주요 변경 사항: Transformer backbone, Rectified flow + 자잘한 내용들 많음 Simulation-Free Training of Flows Flow matching의 개념에 대해 설명하는 챕터. 확률분포가 아니라 벡터 필드를 회귀하는구나~ 정도만 알아도 된다. Flow matching에 대한 ChatGPT의 직관적인 설명: z의 probability path: u는 역 ψ매핑에 대한 벡터 필드이다. 일반적인 flow matching 목표는 확률적으로 다루기 어렵다. ϵ에 대한 조건부 벡터 필드를 이용한 flow matching은 결정적이므로 다루기 쉽다. ψ, ..
PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation [Project Page] [Github] [arXiv](2024/03/07 version v1) Abstract 사전 훈련된 Diffusion Transformer를 효율적으로 fine-tuning 하여 4K 해상도의 이미지를 생성 레딧 반응을 보면 고품질 데이터의 양이 부족해서 품질이 좋진 않다는 것 같다. Framework Data Analysis Efficient DiT Design Weak-to-Strong Training Strategy Data Analysis Aesthetic scoring model (AES)로 필터링된 33M의 고품질 이미지. 최신 캡션 모델을 통해 캡션의 길이와 정확도를 향상시켰다. Efficient DiT Design Self-attention 계산 비용을 줄이기 위..
ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment [Project Page] [Github] [arXiv](2024/03/08 version v1) Abstract Timestep-Aware Semantic Connector를 통해 LLM과 확산 모델을 연결하여 텍스트 정렬을 향상시키는 ELLA (Efficient Large Language Model Adapter) 제안 Method Architecture Design Timestep-Aware Semantic Connector (TSC) Flamingo에서 Perceiver Resampler의 설계를 가져와 learnable query를 사용하고 cross-attention을 통해 LLM과 상호작용한다. 또한 확산 모델은 timestep에 따라 각각 다른 수준의 feature에 집중하므로 AdaLN ..
GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [Github] [arXiv](2024/03/06 version v1) AbstractGradient를 low-rank로 투영하여 메모리 집약적인 계산을 수행하는, LoRA 보다 메모리 효율적인 GaLore (Gradient Low-Rank Projection) 제안 GaLore: Gradient Low-Rank ProjectionBackgroundLow-Rank Property of Weight GradientGradient Low-rank Projection (GaLore)이 챕터 선 한 줄 요약: 훈련이 진행될수록 gradient의 rank가 낮아지며, 이를 이용해 메모리 집약적인 계산을 low-rank에서 수행한다. Background Regular full-rank training Timeste..
NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models [Project Page] [arXiv](2024/03/05 version v1) Abstract 음성의 다양한 속성을 각 하위 공간으로 인수분해하여 개별적으로 생성하는 factorized diffusion TTS model인 NaturalSpeech 3 NaturalSpeech 3 Overall Architecture FACodec, factorized diffusion model로 구성됨. FACodec for Attribute Factorization FACodec은 인코더, 디코더, 음색 추출기, 3개의 factorized vector quantizer로 구성된다. Attribute Disentanglement Information Bottleneck: 인코더 출력을 저차원 공간에 투영하고 양자화..