본문 바로가기

논문 리뷰

(452)
Segment Anything (SAM) Segmentation을 위한 최초의 foundation model Github arXiv Abstract 1000만 개 이상의 이미지 및 10억 개 이상의 마스크를 가진 현존하는 가장 큰 segmentation 데이터셋(SA-1B)과 해당 데이터셋으로 학습해 인상적인 제로샷 성능을 보여주는 SAM(Segment Anything Model) 제안. Introduction 웹 규모의 데이터셋에서 학습된 대규모 언어 모델은 강력한 일반화로 NLP를 혁신하고 있다. 본 논문의 목표는 segmentation에서 이러한 foundation model을 구축하는 것이다. 이를 위해 다음과 같은 질문들을 해결해야 한다. 제로샷 일반화를 가능하게 하는 작업은 무엇인가? 해당 모델의 아키텍처는? 어떤 데이터가 이 작업과..
Token Merging for Fast Stable Diffusion 토큰 병합을 확산 모델에 적용 Github arXiv Abstract Token Merging을 Stable Diffusion에 적용하여 속도 향상 Introduction 대부분의 이미지는 중복성이 높고, 따라서 모든 토큰에 대해 계산을 수행하는 것은 리소스의 낭비이다. 추가적인 훈련 없이 평가 속도를 높일 수 있는 token merging(ToMe)을 SD에 적용. ToMe는 SD의 속도를 크게 향상할 수 있었지만 이미지 품질이 크게 저하되었다. 속도 향상과 함께 이미지 품질을 유지하기 위한 새로운 기술을 도입한다. Background ToMe LDM(Stable Diffusion) Token Merging for Stable Diffusion 확산 모델에서는 모든 토큰에 대해 제거할 노이즈를 알아야 ..
Token Merging: Your ViT But Faster 추가 훈련 없이 토큰 병합으로 속도 높이기 Github arXiv Abstract 추가 훈련 없이 ViT 모델의 처리량을 늘릴 수 있는 토큰 병합(ToMe) 소개. ToMe는 경량 매칭 알고리즘을 사용하여 유사한 토큰을 점진적으로 결합한다. Introduction 컴퓨팅 비용을 줄이기 위해 Swin Transformer와 같은 방법들이 나왔지만 vanilla ViT는 여전히 바람직한 특성 몇 가지를 갖고 있다. 간단한 행렬 곱셈으로 구성 MAE와 같은 자체 감독 훈련 가능 데이터에 대한 가정이 부족하여 다양한 양식에 적용 가능하고 확장성이 있음 더 빠른 모델을 위해 런타임 시 토큰을 정리하는 token pruning이 제안되었지만 정보 손실의 우려가 있고 모델의 재교육해야 함. 본 논문에서는 토큰을 제거..
Composer: Creative and Controllable Image Synthesis with Composable Conditions 분해-재구성 단계를 통해 다양한 컨디셔닝에 적응 Project Page Abstract 먼저 이미지를 대표 요소로 분해한 다음 이 모든 요소를 조건으로 하여 입력을 재구성하는 확산 모델을 훈련하여 출력 이미지를 유연하게 제어할 수 있는 차세대 패러다임인 Composer 제안 Introduction 연구진은 제어 가능한 이미지 생성의 핵심이 컨디셔닝뿐만 아니라 compositionality에 더 의존한다고 주장한다. (잠재적으로 무한한 수의 새로운 조합을 인식하고 생성) Compositional generative model이란 시각적 구성 요소를 매끄럽게 재결합하여 새로운 이미지를 생성할 수 있는 생성 모델을 말한다. Composer는 U-Net 백본의 확산 모델로 구현되며 학습에는 decompositi..
MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation 여러 확산 과정을 최적화를 통해 한 장의 이미지로 통합 Project Page Abstract 추가 훈련 없이 사전 훈련된 text-to-image 확산 모델을 사용하여 다재다능하고 제어 가능한 이미지 생성을 가능하게 하는 통합 프레임워크인 MultiDiffusion 제안 Introduction 사전 훈련된 참조 확산 모델은 이미지의 서로 다른 영역에 적용되고 MultiDiffusion은 최소 제곱 최적화를 통해 global denoising sampling step을 수행한다. 또한 계산 오버헤드 적음. Method 점진적으로 이미지를 IT → I0으로 denoising 하는 사전 훈련된 참조 확산 모델 MultiDiffusion MultiDiffusion은 image space J와 condition..
Adding Conditional Control to Text-to-Image Diffusion Models (ControlNet) End-to-End 방식으로 확산 모델에 조건 입력 Github arXiv Abstract 확산 모델에 조건부 입력을 가능하게 하는 end-to-end 방식의 ControlNet 제안 Introduction 작업별 도메인에서 사용 가능한 데이터셋은 크지 않다. 따라서 일반화 능력을 보존하기 위한 특별한 훈련 방법이 필요하다. 시간과 메모리의 제약으로 인해 fine tuning 전략이 필요하다. 다양한 형태의 이미지 처리 문제에 대해 denoising process 제한, attention의 편집 등 절차적 방식으로 규제했지만 개체 수준의 본질적인 이해를 위해서는 end-to-end 학습이 필수불가결하다. ControlNet은 확산 모델의 가중치를 trainable copy, locked copy로 복제하..
Hard Prompts Made Easy: Gradient-Based Discrete Optimization for Prompt Tuning and Discovery Hard prompt 최적화 Github arXiv Abstract Hard prompt 최적화 및 자동 생성 Introduction Hard prompt는 다른 모델에도 적용 가능하다는 이식성에서 장점이 있다. Hard prompt의 최적화를 통해 hard prompt의 장점과 soft prompt의 장점인 용이성과 자동화를 결합한다. 텍스트 최적화를 위해 기존에 사용되던 gradient reprojection 체계를 기반으로 하여 hard prompt를 학습하기 위한 간단한 체계 제안 위 최적화 방법을 hard prompt 학습에 사용하여 prompt를 생성하는 일반적인 도구를 제공 학습된 prompt 체계가 해석 가능성을 향상하며 다른 텍스트 최적화 체계를 능가한다는 것을 보임 Prompt 최적화란..
Mixture of Diffusers for scene composition and high resolution image generation 여러 확산 과정을 혼합하여 이미지 생성 Github arXiv Abstract 캔버스의 서로 다른 영역에 작용하는 여러 확산 과정을 조화시킴으로써 더 큰 이미지를 생성할 수 있는 Mixture of Diffusers 알고리즘 제안 Introduction 일반적인 확산 모델은 다음과 같은 프롬프트를 잘 나타내지 못하며, 위치가 무시된다. 또한 큰 이미지를 생성하는 데에 기하급수적으로 컴퓨팅 비용이 증가함. Mixture of Diffusers는 여러 확산 과정을 혼합하여 위 문제들을 해결한다. Mixture of Diffusers의 이점: 특정 위치에서 개체를 생성하거나 스타일 사이의 공간에 부드러운 전환을 도입할 수 있음 각 확산 과정이 동일한 신경망을 공유하기 때문에 적은 메모리로 고해상도 이미지 생성..
Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image Diffusion Models Text-to-image에서 여러 개체를 생성할 때 생기는 문제와 잘못된 속성 바인딩 개선 Github arXiv Abstract 확산 모델이 여러 주제를 동시에 생성하지 못하거나 속성을 올바르게 바인딩하지 못하는 실패 사례를 완화하는 데 도움이 되는 Generative Semantic Nursing(GSN) 개념 소개 Introduction 최근 확산 기반 text-to-image 생성 모델의 문제 여러 주제를 동시에 생성하지 못함 잘못된 개체에 속성 바인딩 GSN의 개념 도입, Attend-and-Excite(A&E)라는 GSN의 형태 제안. Attention 과정에서 텍스트와 이미지 간의 상호작용이 무시되기 쉽다는 관찰을 바탕으로 denoising 과정에서 각 주제 토큰이 일부 패치에서 지배적일 것..
Cut and Learn for Unsupervised Object Detection and Instance Segmentation Cut and learn 방식으로 작은 물체까지 잘 잡아냄 Project Page Cut and Learn for Unsupervised Object Detection and Instance Segmentation If you find our work inspiring or use our codebase in your research, please cite our work: @article{wang2023cut, author={Wang, Xudong and Girdhar, Rohit and Yu, Stella X and Misra, Ishan}, title={Cut and Learn for Unsupervised Objec people.eecs.berkeley.edu Abstract Unsupervise..
LoRA: Low-Rank Adaptation of Large Language Models 사전 훈련 네트워크 가중치의 rank를 분해하여 효율적인 downstream 작업 Github arXiv Abstract 사전 훈련된 모델 가중치를 동결하고 transformer architecture의 각 계층에 훈련 가능한 rank decomposition matrix를 주입하여 다운스트림 작업에서 피라미터의 수를 크게 줄이는 Low-Rank Adaptation(LoRA) 제안. Introduction LoRA는 Measuring the Intrinsic Dimension of Objective Landscapes에서 영감을 받았다. 연구진은 모델 적응 중의 가중치 변화가 낮은 intrinsic rank를 갖고 있다고 가정하고 LoRA(Low-Rank Adaptation)를 제안했다. LoRA는 위 ..
Measuring the Intrinsic Dimension of Objective Landscapes 네트워크의 고유 차원 측정 arXiv Abstract신경망은 많은 수의 피라미터를 사용한다. 하지만 실제로 필요한 피라미터는 몇 개 일까? 네트워크를 차원이 천천히 증가하는 하위공간에서 훈련시킴으로써 질문에 답한다. 많은 문제는 생각보다 작은 고유 차원을 가지고 있으며, 주어진 데이터셋의 고유 차원은 다른 모델군 간에 거의 차이가 없다. 고유 차원을 통해 문제의 난이도를 정량적으로 비교할 수 있고, 어떤 경우에는 네트워크가 100배 이상 압축된다. Introduction역전파에 의한 피라미터 수정은 고정된 공간을 탐색하는 방법일 뿐, 데이터셋과 네트워크 아키텍처가 지정될 때 전체 환경이 완전히 결정된다. 위 그림과 같은 3차원의 경우 우리는 직관적으로 이해할 수 있지만, 낮은 차원의 직관을 높은 차원으로..