본문 바로가기

분류 전체보기

(540)
Chronos: Learning the Language of Time Series [Github] [arXiv](2024/03/12 version v1) Abstract LLM architecture를 이용한 시계열 모델링 프레임워크 Chronos: A Language Modeling Framework for Time Series 본 연구는 아직 실험적인 단계로 아직 많은 보완이 필요하다는 것을 미리 알림. Time Series Tokenization 시계열 x: C는 과거 context이며 H는 예측 범위. Scaling 시계열 데이터는 원래의 특성과 패턴을 유지하는 것이 중요하기 때문에 평균을 0으로 정규화하지 않는다. Quantization 실수 값인 시계열 데이터를 B개의 bin으로 나누어 양자화한다. 그리고 1 ~ B, PAD, EOS를 time series vocabular..
Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM [arXiv](2024/03/12 version v1) Abstract LLM을 각 도메인에 대해 개별 훈련한 후 단일 MoE 모델로 통합 Branch-Train-MiX Branch-Train-Merge와 Mixture-of-Experts를 결합하였다. Branch & Train: Embarrassingly Parallel Expert Training 각 LLM을 각 데이터셋에 대해 훈련한다. Branch-Train-Merge에서는 이렇게 훈련된 LLM 중 사용할 LLM들을 선택하고 단순히 평균을 계산하였다. MiX: Combining Separate Experts to be a Mixture-of-Experts Feedforward layer에서는 MoE와 같은 구조를 사용하며 self-attentio..
Adding NVMe SSDs to Enable and Accelerate 100B Model Fine-tuning on a Single GPU (Fuyou) [arXiv](2024/03/11 version v1) Abstract 단일 GPU 상용 서버에서 대규모 모델을 fine-tuning 할 수 있도록 ZeRO-Infinity를 개선한 Fuyou 제안 Background Memory Footprint Gradient는 역전파 단계에서 활성화와 오류 값에 대해 계산되며 최적화 단계에서 소비된다. 따라서 활성화는 역전파 단계에서 소비되며 parameter, optimizer state는 훈련 과정 전반에 걸쳐 유지된다. Activation Checkpointing 또한 메모리를 절약하기 위해 활성화를 heterogeneous storage에 offload 하고 역전파 시 가져올 수 있다. ZeRO (Zero Redundancy Optimizer) ZeRO, Z..
Scaling Rectified Flow Transformers for High-Resolution Image Synthesis (Stable Diffusion 3) [Page] [arXiv](2024/03/05 version v1) 텍스트 생성 능력이 엄청나게 향상되었다. SD3 주요 변경 사항: Transformer backbone, Rectified flow + 자잘한 내용들 많음 Simulation-Free Training of Flows Flow matching의 개념에 대해 설명하는 챕터. 확률분포가 아니라 벡터 필드를 회귀하는구나~ 정도만 알아도 된다. Flow matching에 대한 ChatGPT의 직관적인 설명: z의 probability path: u는 역 ψ매핑에 대한 벡터 필드이다. 일반적인 flow matching 목표는 확률적으로 다루기 어렵다. ϵ에 대한 조건부 벡터 필드를 이용한 flow matching은 결정적이므로 다루기 쉽다. ψ, ..
PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation [Project Page] [Github] [arXiv](2024/03/07 version v1) Abstract 사전 훈련된 Diffusion Transformer를 효율적으로 fine-tuning 하여 4K 해상도의 이미지를 생성 레딧 반응을 보면 고품질 데이터의 양이 부족해서 품질이 좋진 않다는 것 같다. Framework Data Analysis Efficient DiT Design Weak-to-Strong Training Strategy Data Analysis Aesthetic scoring model (AES)로 필터링된 33M의 고품질 이미지. 최신 캡션 모델을 통해 캡션의 길이와 정확도를 향상시켰다. Efficient DiT Design Self-attention 계산 비용을 줄이기 위..
ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment [Project Page] [Github] [arXiv](2024/03/08 version v1) Abstract Timestep-Aware Semantic Connector를 통해 LLM과 확산 모델을 연결하여 텍스트 정렬을 향상시키는 ELLA (Efficient Large Language Model Adapter) 제안 Method Architecture Design Timestep-Aware Semantic Connector (TSC) Flamingo에서 Perceiver Resampler의 설계를 가져와 learnable query를 사용하고 cross-attention을 통해 LLM과 상호작용한다. 또한 확산 모델은 timestep에 따라 각각 다른 수준의 feature에 집중하므로 AdaLN ..
GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [Github] [arXiv](2024/03/06 version v1) AbstractGradient를 low-rank로 투영하여 메모리 집약적인 계산을 수행하는, LoRA 보다 메모리 효율적인 GaLore (Gradient Low-Rank Projection) 제안 GaLore: Gradient Low-Rank ProjectionBackgroundLow-Rank Property of Weight GradientGradient Low-rank Projection (GaLore)이 챕터 선 한 줄 요약: 훈련이 진행될수록 gradient의 rank가 낮아지며, 이를 이용해 메모리 집약적인 계산을 low-rank에서 수행한다. Background Regular full-rank training Timeste..
NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models [Project Page] [arXiv](2024/03/05 version v1) Abstract 음성의 다양한 속성을 각 하위 공간으로 인수분해하여 개별적으로 생성하는 factorized diffusion TTS model인 NaturalSpeech 3 NaturalSpeech 3 Overall Architecture FACodec, factorized diffusion model로 구성됨. FACodec for Attribute Factorization FACodec은 인코더, 디코더, 음색 추출기, 3개의 factorized vector quantizer로 구성된다. Attribute Disentanglement Information Bottleneck: 인코더 출력을 저차원 공간에 투영하고 양자화..
VisionLLaMA: A Unified LLaMA Interface for Vision Tasks [Github] [arXiv](2024/03/01 version v1) Abstract 피라미드 형태의 LLaMA-like vision transformer를 통한 이미지 모델링 Method Plain Transformer DiT framework를 기반으로 하며, Stable Diffusion의 사전 훈련된 VAE를 사용했다. LLaMA를 따라 일반 ViT에서 RoPE, SwiGLU 채택. 실험적으로 LayerNorm이 RMSNorm보다 좋았으므로 변경하지 않았다. 패치의 행, 열에 각각 RoPE를 적용하는 2D RoPE를 사용하였다. Pyramid Transformer Self-attention의 효율성을 위해 피라미드 구조를 사용하며, Swin 보다 강력한 Twins의 구조를 채택하였다. (b) T..
EMO: Emote Portrait Alive -- Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions [Project Page] [Github] [arXiv](2024/02/27 version v1) 성능이 말도 안 된다;; 그냥 미쳤다 이건;; Abstract 3D model, face landmark 등 강한 조건을 사용하지 않고 원활한 프레임 전환, 일관된 ID가 보장된 비디오 생성 Method Network Pipelines Backbone Network Stable Diffusion 1.5 기반 Audio Layers wav2vec 모델을 통해 각 프레임에 대한 음성 표현 추출. 백본에 audio-attention layer 추가. 모션은 숨을 들이쉬고 내쉬는 등 주변 프레임의 영향을 받기 때문에 이들을 연결하여 각 프레임의 음성 feature를 정의한다. ReferenceNet Referenc..
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits [arXiv](2024/02/27 version v1) Abstract Ternary quantization {-1,0,1}을 통해 고정밀도 LLM과 같은 성능의 BitNet b1.58 제안 BitNet b1.58 [BitNet] 기반 Quantization Function 먼저 평균 절댓값으로 크기를 조정한 다음 -1, 0, 1 중 가장 가까운 정수로 반올림. BitNet에서는 ReLU 이전의 활성화는 [0, Q] 범위로 양자화했지만 본문에서는 모든 활성화를 [-Q, Q]로 양자화한다. 구현이나 시스템적으로 깔끔해서 그렇게 했지만, 성능 차이는 거의 없었다고. LLaMA-alike Components LLaMA와 같이 RMSNorm, SwiGLU, Rotary embedding, 모든 bias 제거를 ..
BitNet: Scaling 1-bit Transformers for Large Language Models [Github] [arXiv](2023/10/17 version v1) Abstract 가중치를 1-bit로 양자화하는 Transformer architecture BitNet 아래 그림과 같이 linear 한 연산들을 BitLinear로 교체한다. 대형 모델에서 큰 계산 비용을 차지하지 않는 다른 부분들은 8-bit로 유지하여 입출력의 정밀도를 유지한다. BitLinear 가중치 W의 평균을 0으로 바꾸고 이진화 후 역 양자화 시 β로 스케일링. 활성화 x는 최대 절댓값을 기준으로 하는 absmax 양자화를 통해 8-bit로 양자화. 작은 분산은 훈련 안정성에 도움을 주기 때문에 활성화 양자화 전 LayerNorm 적용. BitLinear 연산 요약: Model Training 양자화는 미분 불가능하지..