본문 바로가기

분류 전체보기

(540)
InternLM-XComposer: A Vision-Language Large Model for Advanced Text-image Comprehension and Composition [arXiv](2023/12/14 version v5) Abstract 자연스러운 Interleaved Text-Image Composition이 가능한 InternLM-XComposer 제안 Method Model Architecture Visual Encoder EVA-CLIP 사용 Perceive Sampler 인식 샘플러는 이미지 임베딩을 LLM의 표현에 정렬하는 역할을 하며 BLIP2와 같이 visual encoder와의 cross-attention이 있는 BERT를 사용한다. Large Language Model InternLM Training Pre-training Interleaved, paired multi-modal data와 LLM의 성능을 유지하기 위해 InternLM의 사전 훈련에..
MoE-LLaVA: Mixture of Experts for Large Vision-Language Models [Github] [arXiv](2024/01/29 version v1) Abstract Mixture-of-Experts + LLaVA Method LLaVA LLaVA-1.5 Mixture-of-Experts (MoE) LIMoE (Multi-modal MoE) MoE-tuning Stage I LLM이 visual token을 이해할 수 있도록 MLP layer를 훈련. Stage II Multi-modal instruction data를 통해 fine-tuning. Stage III MoE 훈련. 각 토큰은 라우팅 된 top-k 전문가의 가중합으로 집계된다. Objective Auto-regressive Loss P개의 토큰을 순서대로 생성하는 일반적인 자기 회귀 목표. Auxiliary Loss ..
SliceGPT: Compress Large Language Models by Deleting Rows and Columns [Github] [arXiv](2024/01/26 version v1) Abstract Weight matrix를 small matrix로 대체하는 새로운 post-training sparsification 방식인 SliceGPT 제안 Transformer networks Embeddings : Wembd LayerNorm Attention Blocks Non-linearity(σ)인 MHA을 기준으로 입, 출력 행렬로 나누어 다음과 같이 표기할 수 있다. FFN Blocks Language Modelling (LM) Head 최종 출력 헤드. Forward Pass SliceGPT Computational invariance in transformer networks LayerNorm transform..
Diffuse to Choose: Enriching Image Conditioned Inpainting in Latent Diffusion Models for Virtual Try-All (DTC) [Project Page] [arXiv](2024/01/24 version v1) Abstract Virtual try-on을 위한 확산 기반 인페인팅 모델인 Diffuse to Choose (DTC) Method 더보기 Paint by Example Diffusion Inpainting Models PBE에서는 복붙 아티팩트를 피하기 위해 참조 이미지의 클래스 토큰만을 가져왔지만 본문에서는 참조 이미지의 feature가 중요하므로 모든 패치를 받으며 더 큰 이미지 인코더인 DINOv2를 사용하였다. 또한 diffusion loss 외에도 색상 등의 정렬을 위해 생성 이미지와 소스 이미지에 대해 VGGNet의 perceptual loss를 도입했다. Design of Diffuse to Choose Cr..
Rethinking Patch Dependence for Masked Autoencoders (CrossMAE) [Project Page] [Github] [arXiv](2024/01/25 version v1) Abstract Masked Autoencoder에서 디코더의 self-attention을 제거, 훨씬 빠르고 성능 좋음 CrossMAE Preliminaries: Masked Autoencoders Reconstruction with Cross-Attention Partial Reconstruction Inter-block Attention Preliminaries: Masked Autoencoders MAE [논문공부] (자세한 리뷰) Masked Autoencoders are Scalable Vision Learners 들어가며: Masked Autoencoders Are Scalable Vision ..
Scaling Up to Excellence: Practicing Model Scaling for Photo-Realistic Image Restoration In the Wild (SUPIR) [Project Page] [Github] [arXiv](2024/01/24 version v1) Abstract 큰 모델, 대규모 데이터, MLLM (Multimodal-LLM)의 이해력을 활용한 이미지 복원 방법인 SUPIR 소개 Introduction 역대 최대 규모(자칭)의 IR(Image Restoration) 방법인 SUPIR (Scaling-UP IR) 소개. SDXL에서 6억 개가 넘는 피라미터를 가진 어댑터를 설계하고 훈련한다. 또한 2천만 개가 넘는 고해상도 이미지, 13B의 MLLM 활용. Method Model Scaling Up Scaling Up Training Data Restoration-Guided Sampling Model Scaling Up Generative Prior..
Lumiere: A Space-Time Diffusion Model for Video Generation [Project Page] [arXiv](2024/01/23 version v1) Abstract 전체 프레임을 한 번에 생성하는 Space-Time U-Net을 통해 시간적으로 일관된 비디오 생성 Lumiere STUNet을 통해 모든 프레임을 한 번에 생성하고 MultiDiffusion을 통해 super-resolution 한다. Space-Time U-Net (STUnet) 사전 훈련된 spatial layer 뒤에 factorized space-time convolution(2D + 1D)을 사용함으로써 3D conv에 비해 계산상의 이점을, 1D에 비해 표현력의 이점을 챙긴다. Temporal attention은 계산 비용이 높으므로 가장 낮은 해상도에서만 사용한다. 일반적인 T2V 연구와 비슷..
Large-scale Reinforcement Learning for Diffusion Models [Project Page] [Github] [arXiv](2024/01/20 version v1) Project Page 보면 정렬은 확실히 좋은데 품질은 잘 모르겠는 느낌...? Realistic 하지 않달까... Abstract 다양한 보상 함수에 대한 대규모 공동 훈련 Method 강화 학습에 대한 지식이 없으신 분들은 이 글에서 ' Baseline function을 빼면 gradient의 분산이 줄어드는 이유' 까지만 보시면 됩니다. RL 목표: 피라미터 θ를 통해 보상 r 최대화 Policy Gradient with Multi-step MDP (Markov decision process) Denoising process를 정책으로 취급하고 최종 결과물에만 보상을 준다. 안정적인 훈련을 위해 im..
Spotting LLMs With Binoculars: Zero-Shot Detection of Machine-Generated Text [Github] [arXiv](2024/01/22 version v1) Abstract 한 쌍의 LLM을 대조하여 간단하게 LLM이 생성한 글을 탐지할 수 있는 Binoculars 제안 Binoculars: How it Works Background & Notation 모델 M은 입력 문자열 s를 tokenization 후 확률 분포를 출력하여 어휘집 V 내에서 다음 토큰을 예측한다. 문자열이 얼마나 놀라운지 측정하는 log-perplexity: 한 모델의 결과가 다른 모델에 얼마나 놀라운지 측정하는 cross-perplexity. Cross-entropy와 비슷하다. What makes detection hard? A primer on the capybara problem. 왜 cross-perplex..
Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs (RPG) [Github] [arXiv](2024/01/22 version v1) Abstract 복잡한 이미지 생성을 LLM을 통해 간단한 하위 영역 생성으로 분해하는 Recaptioning, Planning, and Generating (RPG) Keyword: Multimodal Recaptioning, Chain-of-Thought Planning, Complementary Regional Diffusion Method Text-to-image Generation Prompt Recaptioning User prompt yc에서 핵심 문구를 식별하고 충실도를 향상하기 위해 세부 정보를 보완한다. CoT Planning for Region Division LLM의 Chain-of-thought (CoT) 추론..
LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models (LMD) [Project Page] [Github] [arXiv](2023/10/10 version v2) Abstract LLM이 layout을 생성하여 diffusion model을 안내하는 LLM-grounded Diffusion (LMD) 제안 LLM-grounded Diffusion LLM-based Layout Generation Layout representation 레이아웃 표현은 bounding box와 caption으로 구성된다. Prompting In-context learning 레이아웃 표현을 명확히 하기 위해 작업 설명 후 수동으로 선별한 예제를 제공한다. 2가지 원칙: 각 인스턴스는 단일 bbox로 표시된다. E.g. '사과 4개'의 경우 각 사과가 각기 다른 bbox를 가진다. For..
EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models [Project Page] [arXiv](2024/01/22 version v1) Abstract Stable Diffusion의 의미론적 지식을 활용하여 추가 학습 없이 segmentation map을 생성할 수 있는 EmerDiff 제안 Methods Constructing Low-Resolution Segmentation Maps 이후 언급되는 모든 과정 동안 완벽한 재구성을 위하여 DDPM Inversion을 사용한다. U-Net Upward blocks의 첫 번째 attention layer에서 query vector를 추출한다. 이 feature는 텍스트와 직접 상호작용하며 의미론적으로 인식되어야 한다. K-평균을 적용하여 low-resolution segmentation mask를 얻는다. ..