본문 바로가기

논문 리뷰

(451)
Motion-I2V: Consistent and Controllable Image-to-Video Generation with Explicit Motion Modeling [Project Page] [arXiv](2024/01/31 version v2) Abstract 모션 예측과 비디오 생성을 분리하여 명시적인 모션 모델링이 가능한 Motion-I2V 제안 Keyword: Optical flow, Motion-augmented temporal layer, ControlNet Method Motion Prediction with Video Diffusion Models Motion fields modeling 모션 필드로써 optical flow를 채택. Training a motion field predictor 3단계 fine-tuning 전략: 사전 훈련된 LDM을 참조 이미지와 text prompt를 통해 모션 필드를 예측하도록 fine-tuning. LDM을 고정..
InternLM-XComposer2: Mastering Free-form Text-Image Composition and Comprehension in Vision-Language Large Model [Github] [arXiv](2024/01/29 version v1) Abstract Visual token에만 LoRA를 적용하는 Partial LoRA, 이를 활용해 Interleaved Text-Image Composition이 뛰어난 InternLM-XComposer2 제안 Introduction InternLM-XComposer에서 발전한 모델이며 핵심은 Partial LoRA(P-LoRA)와 다양한 고품질의 data foundation이다. Method Model Architecture P-LoRA를 통해 vision encoder와 LLM을 통합한다. Vision Encoder P-LoRA와 함께 사용할 경우 경량 모델이 효과적으로 작동하는 것으로 나타났기 때문에 이전 연구에서 사용한 EV..
InternLM-XComposer: A Vision-Language Large Model for Advanced Text-image Comprehension and Composition [arXiv](2023/12/14 version v5) Abstract 자연스러운 Interleaved Text-Image Composition이 가능한 InternLM-XComposer 제안 Method Model Architecture Visual Encoder EVA-CLIP 사용 Perceive Sampler 인식 샘플러는 이미지 임베딩을 LLM의 표현에 정렬하는 역할을 하며 BLIP2와 같이 visual encoder와의 cross-attention이 있는 BERT를 사용한다. Large Language Model InternLM Training Pre-training Interleaved, paired multi-modal data와 LLM의 성능을 유지하기 위해 InternLM의 사전 훈련에..
MoE-LLaVA: Mixture of Experts for Large Vision-Language Models [Github] [arXiv](2024/01/29 version v1) Abstract Mixture-of-Experts + LLaVA Method LLaVA LLaVA-1.5 Mixture-of-Experts (MoE) LIMoE (Multi-modal MoE) MoE-tuning Stage I LLM이 visual token을 이해할 수 있도록 MLP layer를 훈련. Stage II Multi-modal instruction data를 통해 fine-tuning. Stage III MoE 훈련. 각 토큰은 라우팅 된 top-k 전문가의 가중합으로 집계된다. Objective Auto-regressive Loss P개의 토큰을 순서대로 생성하는 일반적인 자기 회귀 목표. Auxiliary Loss ..
SliceGPT: Compress Large Language Models by Deleting Rows and Columns [Github] [arXiv](2024/01/26 version v1) Abstract Weight matrix를 small matrix로 대체하는 새로운 post-training sparsification 방식인 SliceGPT 제안 Transformer networks Embeddings : Wembd LayerNorm Attention Blocks Non-linearity(σ)인 MHA을 기준으로 입, 출력 행렬로 나누어 다음과 같이 표기할 수 있다. FFN Blocks Language Modelling (LM) Head 최종 출력 헤드. Forward Pass SliceGPT Computational invariance in transformer networks LayerNorm transform..
Diffuse to Choose: Enriching Image Conditioned Inpainting in Latent Diffusion Models for Virtual Try-All (DTC) [Project Page] [arXiv](2024/01/24 version v1) Abstract Virtual try-on을 위한 확산 기반 인페인팅 모델인 Diffuse to Choose (DTC) Method 더보기 Paint by Example Diffusion Inpainting Models PBE에서는 복붙 아티팩트를 피하기 위해 참조 이미지의 클래스 토큰만을 가져왔지만 본문에서는 참조 이미지의 feature가 중요하므로 모든 패치를 받으며 더 큰 이미지 인코더인 DINOv2를 사용하였다. 또한 diffusion loss 외에도 색상 등의 정렬을 위해 생성 이미지와 소스 이미지에 대해 VGGNet의 perceptual loss를 도입했다. Design of Diffuse to Choose Cr..
Rethinking Patch Dependence for Masked Autoencoders (CrossMAE) [Project Page] [Github] [arXiv](2024/01/25 version v1) Abstract Masked Autoencoder에서 디코더의 self-attention을 제거, 훨씬 빠르고 성능 좋음 CrossMAE Preliminaries: Masked Autoencoders Reconstruction with Cross-Attention Partial Reconstruction Inter-block Attention Preliminaries: Masked Autoencoders MAE [논문공부] (자세한 리뷰) Masked Autoencoders are Scalable Vision Learners 들어가며: Masked Autoencoders Are Scalable Vision ..
Scaling Up to Excellence: Practicing Model Scaling for Photo-Realistic Image Restoration In the Wild (SUPIR) [Project Page] [Github] [arXiv](2024/01/24 version v1) Abstract 큰 모델, 대규모 데이터, MLLM (Multimodal-LLM)의 이해력을 활용한 이미지 복원 방법인 SUPIR 소개 Introduction 역대 최대 규모(자칭)의 IR(Image Restoration) 방법인 SUPIR (Scaling-UP IR) 소개. SDXL에서 6억 개가 넘는 피라미터를 가진 어댑터를 설계하고 훈련한다. 또한 2천만 개가 넘는 고해상도 이미지, 13B의 MLLM 활용. Method Model Scaling Up Scaling Up Training Data Restoration-Guided Sampling Model Scaling Up Generative Prior..
Lumiere: A Space-Time Diffusion Model for Video Generation [Project Page] [arXiv](2024/01/23 version v1) Abstract 전체 프레임을 한 번에 생성하는 Space-Time U-Net을 통해 시간적으로 일관된 비디오 생성 Lumiere STUNet을 통해 모든 프레임을 한 번에 생성하고 MultiDiffusion을 통해 super-resolution 한다. Space-Time U-Net (STUnet) 사전 훈련된 spatial layer 뒤에 factorized space-time convolution(2D + 1D)을 사용함으로써 3D conv에 비해 계산상의 이점을, 1D에 비해 표현력의 이점을 챙긴다. Temporal attention은 계산 비용이 높으므로 가장 낮은 해상도에서만 사용한다. 일반적인 T2V 연구와 비슷..
Large-scale Reinforcement Learning for Diffusion Models [Project Page] [Github] [arXiv](2024/01/20 version v1) Project Page 보면 정렬은 확실히 좋은데 품질은 잘 모르겠는 느낌...? Realistic 하지 않달까... Abstract 다양한 보상 함수에 대한 대규모 공동 훈련 Method 강화 학습에 대한 지식이 없으신 분들은 이 글에서 ' Baseline function을 빼면 gradient의 분산이 줄어드는 이유' 까지만 보시면 됩니다. RL 목표: 피라미터 θ를 통해 보상 r 최대화 Policy Gradient with Multi-step MDP (Markov decision process) Denoising process를 정책으로 취급하고 최종 결과물에만 보상을 준다. 안정적인 훈련을 위해 im..
Spotting LLMs With Binoculars: Zero-Shot Detection of Machine-Generated Text [Github] [arXiv](2024/01/22 version v1) Abstract 한 쌍의 LLM을 대조하여 간단하게 LLM이 생성한 글을 탐지할 수 있는 Binoculars 제안 Binoculars: How it Works Background & Notation 모델 M은 입력 문자열 s를 tokenization 후 확률 분포를 출력하여 어휘집 V 내에서 다음 토큰을 예측한다. 문자열이 얼마나 놀라운지 측정하는 log-perplexity: 한 모델의 결과가 다른 모델에 얼마나 놀라운지 측정하는 cross-perplexity. Cross-entropy와 비슷하다. What makes detection hard? A primer on the capybara problem. 왜 cross-perplex..
Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs (RPG) [Github] [arXiv](2024/01/22 version v1) Abstract 복잡한 이미지 생성을 LLM을 통해 간단한 하위 영역 생성으로 분해하는 Recaptioning, Planning, and Generating (RPG) Keyword: Multimodal Recaptioning, Chain-of-Thought Planning, Complementary Regional Diffusion Method Text-to-image Generation Prompt Recaptioning User prompt yc에서 핵심 문구를 식별하고 충실도를 향상하기 위해 세부 정보를 보완한다. CoT Planning for Region Division LLM의 Chain-of-thought (CoT) 추론..