본문 바로가기

전체 글

(528)
SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis Stable diffusion의 개선 버전 [Github] [arXiv] (본 글은 요약본입니다. 자세한 리뷰) SDXL 아키텍처 향상(3배 더 큰 U-Net backbone) 추가 컨디셔닝 오토인코더 향상 다단계 학습 Refiner Improving Stable Diffusion Architecture & Scale 아키텍처 구성이 달라졌다.(SD, SDXL 아키텍처 분석) 두 개의 텍스트 인코더를 같이 사용, 풀링된 텍스트 인코딩을 추가로 컨디셔닝 Micro-Conditioning 학습 데이터셋의 rescaling 전 원래 사이즈 csize를 컨디셔닝. 추론 시 겉보기 해상도 조절 가능 학습 데이터 로드 시 데이터가 crop 되었다면 crop 좌표 ccrop을 컨디셔닝. ccrop = (0,0)으로 ..
Stable Diffusion, SDXL U-Net Architecture 살펴보기 먼저 stable diffusion 하위 모듈들의 순서가 제대로 나와있지 않아서 직접 찾아봄. conv_in down_blocks: (CrossAttnDownBlock2D: ResnetBlock2D Transformer2DModel ResnetBlock2D Transformer2DModel Downsample2D ) x 3 DownBlock2D: (ResnetBlock2D) x 2 mid_blocks: ResnetBlock2D Transformer2DModel ResnetBlock2D up_blocks: UpBlock2D: (ResnetBlock2D) x 3 Upsample2D (CrossAttnUpBlock2D: (ResnetBlock2D Transformer2DModel) x 3 Upsample2D)..
AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning Text-to-image 모델에 모듈을 추가하여 비디오 생성 Project Page Github arXiv Abstract Motion modeling module을 통해 T2I 모델에서 애니메이션을 생성하는 AnimateDiff 제안 Personalized Animation 다음 그림과 같이 개인화된 T2I 모델에 바로 삽입하여 사용할 수 있는 모듈을 목표로 한다. Motion Modeling Module Network Inflation 프레임 시간축이 추가된 5D(b*c*f*h*w) 텐서를 처리하기 위해 video diffusion model과 같이 원본 U-Net의 2D convolution과 attention layer를 Pseudo-3D layer로 교체하고 공간축을 따라 작동하도록 한다. MM..
InstaFlow: One Step is Enough for High-Quality Diffusion-Based Text-to-Image Generation Reflow, 증류를 통한 초고속 1단계 생성 Github arXiv Abstract Rectified flow를 통해 확산 모델을 초고속 1단계 모델로 전환하기 위한 text-conditioned pipeline인 InstaFlow 제안. 0.1초 이내에 이미지 생성 ㄷㄷ Methods Rectified Flow and Reflow Rectified flow(RF)는 두 분포 사이의 전송 매핑을 학습하기 위한 접근 방식을 제공한다. 신경망을 통해 v를 매개변수화 한다. 일반적인 확률 흐름 ODE는 다음과 같은 형태인데, RF의 저자는 더 간단한 형태를 제안했다. Straight Flows Yield Fast Generation ODE의 궤적을 직선화하는 것은 추론 비용을 줄이기 위한 필수적인 방법임. ..
LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models LLM의 context 크기를 확장하는 효율적인 fine-tuning 방법 Github arXiv Abstract 제한된 계산 비용으로 LLM의 context 크기를 확장하는 효율적인 fine-tuning 방식인 LongLoRA 제안 Introduction LoRA는 row-rank update를 사용하여 전체 fine-tuning을 근사화한다. 이와 비슷하게 연구진은 short attention으로 long context에 근사할 수 있다는 것을 발견했고, 이 통찰에 따라 효율적인 shift short attention(S2-Attn) 제안. 그리고 S2 attn을 통해 긴 context를 효율적으로 fine-tuning 할 수 있는 LongLoRA까지. LongLoRA Shift Short Atten..
StyleDrop: Text-to-Image Generation in Any Style Style transfer with adapter Github arXiv Abstract T2I 모델을 이용하여 특정 스타일을 충실히 따르는 이미지 합성을 가능하게 하는 방법인 StyleDrop 소개. 극소수의 매개변수만을 fine-tuning 하고 반복 훈련을 통해 품질을 개선함으로써 새로운 스타일을 효율적으로 학습. Introduction Transformer-based T2I model : Muse Adapter tuning : adapter 형식의 적은 추가 피라미터 Iterative training with feedback : 과적합 완화, 성능 향상 StyleDrop Preliminary: Muse Muse의 구성요소: Text encoder T, Visual token logits를 생성하는..
DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models 드래그로 조작 가능한 다양한 이미지 편집 기능 Github arXiv Abstract 확산 모델에서 Drag-style 조작이 가능한 DragonDiffusion 제안. Fine tuning, 추가 모듈 x. Introduction 비슷한 작업으로 DragGAN이 있지만 GAN보다 확산 모델이 일반화 능력, 안정성과 생성 품질이 더 우수함. 확산 과정에서 두 가지 feature set 포함.(Guidance feature, Generation feature) Generation feature를 편집하기 위해 guidance feature를 대상으로 활용. DragDiffusion과 달리 추가적인 훈련이 필요 없고 feature 간의 대응을 통해 이미지 일관성을 유지함. Method Overview DIF..
Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow (Rectified Flow) 직선 경로를 통해 분포를 전송하는 ODE 모델 Github arXiv Abstract 경험적으로 관찰된 두 분포 π0, π1 간의 전송을 위해 신경 ODE 모델을 학습하는 간단한 접근 방식인 rectified flow 제안 Introduction 대부분의 비지도 학습의 요점은 어떤 방식으로든 두 분포에 속한 점들 사이의 의미 있는 대응 관계를 찾는 것이다. 최근에 SDE를 이용한 확산 모델이 이미지 품질과 다양성 모두에서 좋은 성과를 이루고 있지만 계산 비용이 높다. Rectified flow는 직선 경로를 통해 분포를 전송하는 ODE 모델이며 직선이 두 점 사이의 최단 경로이기 때문에 확산 모델의 높은 계산 비용을 해소할 수 있다. 이전에 얻은 rectified flow에서 시뮬레이션된 데이터를 사용하..
일론 머스크 월터 아이작슨이 2년 넘게 일론 머스크를 그림자처럼 따라다니며 집필한 머스크의 전기 "일론 머스크"가 출간되었다.머스크는 월터가 자신을 따라다니고 기록하며 많은 사람들과 대화를 나눌 수 있도록 도와주었으며, 원고를 보여달라고도 하지 않고, 책에 대한 어떠한 통제권도 행사하지 않았다고 한다.  그래서 월터가 따라다니며 직접 보고 겪은 비교적 최근 사건들은 엄청나게 자세하게 쓰여 있으며, 오래 전의 사건들도 머스크의 부모님이나 최측근들과의 인터뷰를 통해 꽤 자세하게 담아냈다. 적어도 이 책은 머스크에 대한 A to Z, 아니 A to X 정도는 담겨 있다고 생각한다. 더 길게 쓸 수도 있지만 귀찮기도 하고 일론 머스크라는 인물에 대해 조금이라도 관심이 있다면 무조건 읽는 걸 추천하기 때문에 날먹할 생각 말고..
Emergent Correspondence from Image Diffusion (DIFT) 이미지 간의 대응 관계를 찾을 수 있는 확산 과정의 중간 feature Project Page DiffusionFeatures Finding correspondences between images is a fundamental problem in computer vision. In this paper, we show that correspondence emerges in image diffusion models without any explicit supervision. We propose a simple strategy to extract this implicit knowled diffusionfeatures.github.io Abstract 이미지 간의 대응 관계를 찾는 것은 컴퓨터 비전의 근본적인 ..
DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing DragGAN의 방법으로 Diffusion Model에서 포인트 기반 대화형 편집 Github arXiv Abstract 대화형 포인트 기반 편집을 확산 모델로 확장한 DragDiffusion 제안 Introduction DragDiffusion은 특정 t 단계에서 잠재성을 조작하여 출력 이미지를 편집. DragGAN에 따라 모션 감독 및 포인트 추적의 반복 절차를 사용. 특정 단계의 잠재성을 조작할 때의 한 가지 문제점은 스타일이나 외형이 바뀔 수도 있다는 것이다. 편집 전 입력 이미지를 재구성하기 위해 UNet에서 LoRA를 fine tuning하여 문제 완화. Methodology Method Overview 먼저 재구성을 위한 LoRA를 만들고, 샘플링의 특정 단계에서 DragGAN의 절차 사용...
Fast Segment Anything (FastSAM) SAM의 CNN version. 매우 빠름. Github arXiv Abstract SAM(Segment Anything Model)의 작업을 CNN 탐지기로 수행. 훨씬 적은 데이터셋과 빠른 속도로 SAM과 동일한 성능. Preliminary YOLO v1~v8 FPN(Feature Pyramid Networks) YOLACT(간단한 설명, 자세한) SAM(Segment Anything Model) Introduction SAM은 ViT 때문에 계산 리소스 부담이 심함. FastSAM에서는 segment 작업을 CNN 탐지기에 의한 all-instance segmentation과 prompt-guided selection 단계로 나눈다. SA-1B 데이터셋의 2% 만으로 훈련하여 기존과 비슷한 성능을 ..