본문 바로가기

전체 글

(535)
StyleDrop: Text-to-Image Generation in Any Style Style transfer with adapter Github arXiv Abstract T2I 모델을 이용하여 특정 스타일을 충실히 따르는 이미지 합성을 가능하게 하는 방법인 StyleDrop 소개. 극소수의 매개변수만을 fine-tuning 하고 반복 훈련을 통해 품질을 개선함으로써 새로운 스타일을 효율적으로 학습. Introduction Transformer-based T2I model : Muse Adapter tuning : adapter 형식의 적은 추가 피라미터 Iterative training with feedback : 과적합 완화, 성능 향상 StyleDrop Preliminary: Muse Muse의 구성요소: Text encoder T, Visual token logits를 생성하는..
DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models 드래그로 조작 가능한 다양한 이미지 편집 기능 Github arXiv Abstract 확산 모델에서 Drag-style 조작이 가능한 DragonDiffusion 제안. Fine tuning, 추가 모듈 x. Introduction 비슷한 작업으로 DragGAN이 있지만 GAN보다 확산 모델이 일반화 능력, 안정성과 생성 품질이 더 우수함. 확산 과정에서 두 가지 feature set 포함.(Guidance feature, Generation feature) Generation feature를 편집하기 위해 guidance feature를 대상으로 활용. DragDiffusion과 달리 추가적인 훈련이 필요 없고 feature 간의 대응을 통해 이미지 일관성을 유지함. Method Overview DIF..
Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow (Rectified Flow) 직선 경로를 통해 분포를 전송하는 ODE 모델 Github arXiv Abstract 경험적으로 관찰된 두 분포 π0, π1 간의 전송을 위해 신경 ODE 모델을 학습하는 간단한 접근 방식인 rectified flow 제안 Introduction 대부분의 비지도 학습의 요점은 어떤 방식으로든 두 분포에 속한 점들 사이의 의미 있는 대응 관계를 찾는 것이다. 최근에 SDE를 이용한 확산 모델이 이미지 품질과 다양성 모두에서 좋은 성과를 이루고 있지만 계산 비용이 높다. Rectified flow는 직선 경로를 통해 분포를 전송하는 ODE 모델이며 직선이 두 점 사이의 최단 경로이기 때문에 확산 모델의 높은 계산 비용을 해소할 수 있다. 이전에 얻은 rectified flow에서 시뮬레이션된 데이터를 사용하..
일론 머스크 월터 아이작슨이 2년 넘게 일론 머스크를 그림자처럼 따라다니며 집필한 머스크의 전기 "일론 머스크"가 출간되었다.머스크는 월터가 자신을 따라다니고 기록하며 많은 사람들과 대화를 나눌 수 있도록 도와주었으며, 원고를 보여달라고도 하지 않고, 책에 대한 어떠한 통제권도 행사하지 않았다고 한다.  그래서 월터가 따라다니며 직접 보고 겪은 비교적 최근 사건들은 엄청나게 자세하게 쓰여 있으며, 오래 전의 사건들도 머스크의 부모님이나 최측근들과의 인터뷰를 통해 꽤 자세하게 담아냈다. 적어도 이 책은 머스크에 대한 A to Z, 아니 A to X 정도는 담겨 있다고 생각한다. 더 길게 쓸 수도 있지만 귀찮기도 하고 일론 머스크라는 인물에 대해 조금이라도 관심이 있다면 무조건 읽는 걸 추천하기 때문에 날먹할 생각 말고..
Emergent Correspondence from Image Diffusion (DIFT) 이미지 간의 대응 관계를 찾을 수 있는 확산 과정의 중간 feature Project Page DiffusionFeatures Finding correspondences between images is a fundamental problem in computer vision. In this paper, we show that correspondence emerges in image diffusion models without any explicit supervision. We propose a simple strategy to extract this implicit knowled diffusionfeatures.github.io Abstract 이미지 간의 대응 관계를 찾는 것은 컴퓨터 비전의 근본적인 ..
DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing DragGAN의 방법으로 Diffusion Model에서 포인트 기반 대화형 편집 Github arXiv Abstract 대화형 포인트 기반 편집을 확산 모델로 확장한 DragDiffusion 제안 Introduction DragDiffusion은 특정 t 단계에서 잠재성을 조작하여 출력 이미지를 편집. DragGAN에 따라 모션 감독 및 포인트 추적의 반복 절차를 사용. 특정 단계의 잠재성을 조작할 때의 한 가지 문제점은 스타일이나 외형이 바뀔 수도 있다는 것이다. 편집 전 입력 이미지를 재구성하기 위해 UNet에서 LoRA를 fine tuning하여 문제 완화. Methodology Method Overview 먼저 재구성을 위한 LoRA를 만들고, 샘플링의 특정 단계에서 DragGAN의 절차 사용...
Fast Segment Anything (FastSAM) SAM의 CNN version. 매우 빠름. Github arXiv Abstract SAM(Segment Anything Model)의 작업을 CNN 탐지기로 수행. 훨씬 적은 데이터셋과 빠른 속도로 SAM과 동일한 성능. Preliminary YOLO v1~v8 FPN(Feature Pyramid Networks) YOLACT(간단한 설명, 자세한) SAM(Segment Anything Model) Introduction SAM은 ViT 때문에 계산 리소스 부담이 심함. FastSAM에서는 segment 작업을 CNN 탐지기에 의한 all-instance segmentation과 prompt-guided selection 단계로 나눈다. SA-1B 데이터셋의 2% 만으로 훈련하여 기존과 비슷한 성능을 ..
Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture (I-JEPA) 데이터 증강 없이 의미론적 표현 학습하기 Github arXiv Abstract Hand-crafted data-augmentation에 의존하지 않고 의미론적인 표현을 학습하기 위한 아키텍처인 I-JEPA 소개. 단일 context block에서 다양한 target block의 표현을 예측한다는 아이디어. Introduction I-JEPA의 기본 개념은 추상 표현 공간에서 누락된 정보를 예측하는 것. I-JEPA는 추상적인 예측 대상을 사용하므로 불필요한 픽셀 수준 세부사항이 무시되어 더 의미론적인 feature를 학습한다. Method ViT 아키텍처 사용. MAE와 비슷하지만 중요한 차이점은 예측이 표현공간에서 이루어진다는 것. Targets. 입력 이미지를 target encoder fθ̄를 통..
Augmenting Language Models with Long-Term Memory (LongMem) 무제한 길이 토큰을 처리할 수 있는 LLM framework Github arXiv Abstract LLM이 무제한 길이 context를 처리할 수 있도록 확장한 LongMem 프레임워크 제안. Introduction GPT-3은 GPT-2에서 입력 토큰 수를 2k로 늘림. 하지만 dense attention으로 계산 복잡성 증가. 따라서 sparse attention을 사용하는 연구가 있었음. MemTRM에서는 메모리에서 검색된 memorized token과 in-context token 사이의 dense attention을 통해 계산. 하지만 단일 모델을 사용하여 메모리에 캐시 된 이전 표현이 현재 모델에 문제를 일으킬 수 있는 메모리 부실 문제가 있음. LongMem에서는 이전 context를 메모..
SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two Seconds 모바일 장치에서 2초 이내에 작동되는 매우 빠른 T2I 확산 모델 Project Page SnapFusion snap-research.github.io Abstract 모바일 장치에서 2초 이내에 작동되는 text-to-image 확산 모델. Efficient UNet, efficient image decoder, step distillation. Model Analysis of Stable Diffusion Prerequisites of Stable Diffusion Diffusion Model DDIM의 denoising Classifier-free guidance Latent Diffusion Model(LDM, Stable Diffusion) Benchmark and Analysis Macro P..
Progressive Distillation for Fast Sampling of Diffusion Models 점진적 증류를 통해 샘플링 시간 줄임 Github arXiv Abstract 적은 샘플링 단계를 사용할 때 향상된 안정성을 제공하는 확산 모델의 새로운 매개변수화. 결정론적 확산 샘플러를 새로운 확산 모델로 추출하는 방법. Introduction 사전 훈련된 확산 모델에 대한 N-step DDIM sampler의 동작을 샘플 품질의 저하가 거의 없는 N/2 단계의 새 모델로 증류하는 절차를 제시. 점진적 증류를 통해 샘플링 시간을 수십 배 줄이면서 샘플 품질을 유지함. Background on Diffusion Models (겁먹지 마세요. 이 부분은 잘 몰라도 됩니다.) 미분 가능한 log SNR 확산 모델의 순방향 과정 Denoising 모델을 통한 노이즈 제거 일반적인 Discrete time sa..
Recognize Anything: A Strong Image Tagging Model (RAM) 이미지 태깅을 위한 foundation model Project Page Abstract 이미지 태깅을 위한 강력한 foundation model인 RAM(Recognize Anything Model) 제안 Introduction Label System : 보편적이고 통합된 label system 구축 Dataset : Label system으로 대규모 이미지에 자동으로 주석 추가 Data Engine : 모델을 활용하여 주성을 생성, 필터링하는 데이터 엔진 구축 Model : Tag2Text와 달리 zero-shot 일반화 가능 훈련 과정 대규모 데이터셋에서 pretrain RAM 훈련 데이터 엔진을 통해 데이터셋 보강, 필터링 RAM fine-tuning RAM의 장점 강력한 zero-shot 일반화..