본문 바로가기

논문 리뷰

(452)
PIXART-δ: Fast and Controllable Image Generation with Latent Consistency Models [Project Page] [Github] [arXiv](2024/01/10 version v1) Abstract PixArt-α에 Latent Consistency Model과 ControlNet을 통합한 PixArt-δ 소개. LCM in PixArt-δ Algorithm and Modification Training Efficiency and Inference Speedup Training Details Algorithm and Modification LCD Algorithm 가변 guidance scale w 대신 고정된 w를 사용하는 것 외에는 LCM과 똑같다. Effect of Hyper-parameters bs = batch size, w_fix = 고정된 w, w_Embed = 가변 w C..
Score Distillation Sampling with Learned Manifold Corrective (LMC-SDS) [arXiv](2024/01/10 version v1) Abstract Score Distillation Sampling (SDS)를 심층적으로 분석하고 더 깨끗한 gradient를 제공하는 Score Distillation Sampling with Learned Manifold Corrective (LMC-SDS) 제안 Analysis 확산 손실: Score Distillation Sampling: Classifier-free Guidance: SDS를 다음과 같이 다시 쓸 수 있다. w가 높으면 지나치게 채도가 높은 이미지와 아티팩트를 생성하고, 낮으면 지나치게 흐릿한 이미지를 생성한다. 이를 분석하기 위해 SDS rendering function g()가 ID인, 즉 z = θ인 경우에 각 scor..
MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts [arXiv](2024/01/08 version v1) [Mamba 논문 리뷰] Model Architecture Switch Transformer에서 사용한 switch 기반 MoE를 사용한다. 또한 원래 2개의 mamba block이 1개의 transformer block과 대응하는데, 위 그림에도 나오듯이 MoE를 추가하면 transformer block과 1대1 대응된다. Main Results
Mamba: Linear-Time Sequence Modeling with Selective State Spaces + Mamba에 대해 매우 잘 설명되어 있는 글 ← 그냥 이거 보세요 SSM에 선택성을 부여하고 하드웨어 최적화 [Github] [arXiv](2023/12/01 version v1) Abstract Transformer 기반 모델들이 긴 시퀀스 처리에서 보여주는 계산 비효율성을 해결하기 위해 Mamba라는 새로운 신경망 구조를 제안 State Space Models 필독!!! S4 model Efficiently Modeling Long Sequences with Structured State Spaces (S4) [arXiv](2022/08/05 version v3) 영어 잘하시면 이거 보세요. https://srush.github.io/annotated-s4/ 근데 솔직히 원어민도 이거 보고 이해 ..
Efficiently Modeling Long Sequences with Structured State Spaces (S4) [arXiv](2022/08/05 version v3) 영어 잘하시면 이거 보세요. https://srush.github.io/annotated-s4/ 근데 솔직히 원어민도 이거 보고 이해 못 할 듯; The Annotated S4 srush.github.io 시작하기 전에 말하자면 이 논문에 관련된 모든 수식을 이해하는 것은 저로서는 불가능한 일이었습니다... 그래서 최대한 수학을 빼고 개념적으로 설명해 보겠습니다. (그래도 많아요) Abstract State Space Model(SSM)에 대한 새로운 피라미터화를 기반으로 이전 접근법보다 효율적인 Structured State Space Sequence model(S4) 제안 Background: State Spaces 일단 state space에 ..
Mixtral of Experts (Mixtral 8x7B) [Project Page] [arXiv](2024/01/08 version v1) Abstract Mistral 7B와 동일하지만 각 레이어가 8개의 feedforward block으로 구성된 Sparse Mixture of Experts (SMoE) 모델인 Mixtral 8x7B 소개 LLaMA2 70B와 대등하거나 그 이상... Architectural details Mistral 7B와 다른점은 32K token의 조밀한 context 길이를 지원하고 FF를 MoE로 대체했다. Mistral 7B Mixtral 8x7B Sparse Mixture of Experts Mixture of Experts: gating network G를 통해 전문가를 선택한다. V-MoE: Transformer의 경우 ..
Mistral 7B 효율성이 높은 LLaMA2 기반 모델. LLaMA2 보다 성능 좋음. [Project Page] [Github] [arXiv](2023/10/10 version v1) Model Architecture Sliding Window Attention Window size W개의 이전 토큰에 대해 attention을 수행한다. 이전 토큰은 또다시 이전 레이어에서 이전 토큰에 대한 attention을 수행하므로 마지막 레이어의 토큰은 최대 약 13만개(4096x32) 토큰의 영향을 받는다. FlashAttention과 xFormers를 추가로 채택하여 Vanilla attention에 비해 2배의 속도 향상을 얻었다. Rolling Buffer Cache 고정된 캐시 크기를 사용한다. 아래 그림은 캐시 크기 =..
Denoising Vision Transformers (DVT) Positional Embedding에 의해 유발되는 noise artifact를 제거하는 네트워크 [Project Page] [Github] [arXiv](2024/01/05 version v1) Abstract ViT의 출력에서 나타나는 noise artifact를 분리하고 제거할 수 있는 Denoising Vision Transformers (DVT) 제안 Introduction 아래 그림은 원시 ViT 출력에 클러스터링 알고리즘을 적용하면 노이즈가 많은 클러스터가 생성된다는 것을 보여준다. 연구진은 3가지 이유로 위치 임베딩이 이러한 현상에 기여한다고 가정했다. Zero-tensor를 입력해도 유사한 노이즈 패턴이 발생한다. 위치 임베딩 없이 훈련한 모델에서는 노이즈 패턴이 발생하지 않는다. 입력..
Progressive Knowledge Distillation Of Stable Diffusion XL Using Layer Level Loss [arXiv](2024/01/05 version v1) Abstract SDXL을 증류하여 30% 크기에 100% 속도 향상을 제공하는 [Segmind-Vega], 50% 크기에 60% 속도 향상을 제공하는 [SSD-1B] 모델 소개 Methodology Architecture 일단 SDXL의 U-Net은 Stable Diffusion에서 Down/Up block을 하나씩 줄이고 블록 당 attention layer를 10개씩 사용한다. Stable Diffusion, SDXL architecture 차이 따라서 SD의 블록 자체를 제거한 BK-SDM과 다르게 attention의 수만 줄이는 방법을 사용했다. (Up Blocks인데 그림에서 Down Blocks라고 표기되어 있다. 잘못 적은 거 아닌가?..
BK-SDM: A Lightweight, Fast, and Cheap Version of Stable Diffusion [Github] [arXiv](2023/11/16 version v3) Abstract Stable Diffusion에서 residual block과 attention block 제거, 증류를 통해 모델 크기를 줄인 BK-SDM 제안 Compact U-Net architecture Pruning 후 generation score의 차이를 측정하여 민감도 분석. 높을수록 제거가 가능함을 의미한다. Fewer blocks in the down and up stages Down stages 첫 번째 RA pair가 변경된 공간 정보를 처리하기 때문에 더 중요하다. 민감도 분석과도 일치. 따라서 두 번째 RA pair를 제거. Up stages Down stage의 두 번째 RA pair와 잔차 연결된 RA p..
Instruct-Imagen: Image Generation with Multi-modal Instruction 생성 모델을 자연어로 제어할 수 있도록 multi-modal instruction tuning. [arXiv](2024/01/03 version v1) Abstract 자연어를 사용하여 서로 다른 양식을 통합함으로써 다양한 생성 의도를 통일된 형식으로 표준화할 수 있는 Instruct-Imagen 제안 Multi-modal Instructions for Generation Multi-modal instruction은 2가지 핵심 구성요소로 이루어져 있다. 마커([ref#1])와 함께 작업에 대한 설명을 제공하는 text instruction 마커와 pairing 된 multi-modal context Instruct-Imagen Imagen with Multi-modal Instruction Traini..
TinyLlama: An Open-Source Small Language Model [Github] [arXiv](2024/01/04 version v1) Abstract LLaMA2의 architecture, tokenizer를 기반으로 3 epochs에 걸쳐 1T 개의 토큰으로 pretraining 된 1.1B 언어 모델인 TinyLlama 소개 Introduction Chinchilla scaling raw에서 제시하는 것보다 훨씬 더 많은 토큰으로 훈련했을 때 작은 모델의 행동을 탐구하기 위해 3T 개의 토큰을 사용해 1.1B decoder-only transformer를 훈련한다. Pretraining Pre-training data SlimPajama : 대부분 영어로 구성된 1.2T token dataset인 RedPajama에서 저품질 데이터를 필터링하고 중복을 제거하여 ..