전체 글 (535) 썸네일형 리스트형 What the DAAM: Interpreting Stable Diffusion Using Cross Attention DAAM 코드 리뷰, DAAM 써보기 단어가 생성된 이미지에 미친 영향을 hitmap으로 표시 arXiv Github Abstract Stable diffusion에 대한 text-image 속성 분석. Introduction 모델에서 cross attention map을 결합하여 각 단어에 대한 2차원 속성 map을 생성한다. 이것을 Diffusion Attentive Attribution Maps(DAAM) 라고 함. DAAM을 semantic segment와 비교 프롬프트의 구문 공간에서의 관계가 이미지의 픽셀 공간에서의 관계와 어떻게 관련되는지를 특성화 DAAM의 렌즈를 통해 의미론적 현상, 특히 생성 품질에 영향을 미치는 현상을 연구하여 구문적 발견을 추가로 조사 예를 들어, '기린과 얼룩말'은.. DPM-Solver++: Fast Solver for Guided Sampling of Diffusion Probabilistic Models DPM-solver에서 속도 개선, guided sampling에서도 작동되게 개선. Arxiv Github Abstract Guided sampling을 위한 DPM-solver. 또한 임계값 방법과 DPM-solver++의 multi-step 변형 제안. Introduction DPM-solver에서는 유도(guided) 샘플링에 대해 제대로 조사하지 않았다. 유도 샘플링의 경우 단순한 1차 solver인 DDIM보다도 좋지 않았다고 한다. 데이터 예측 매개 변수화로 ODE를 해결하기 위한 solver를 도출하고, train-test 불일치 문제를 완화하기 위해 동적 임계값 방법을 채택한다. 또한, 불안정 해결을 위해 다단계 solver를 개발. Background DPM-solver Paramete.. DPM-Solver : A Fast ODE Solver for Diffusion Probabilistic Model Sampling in Around 10 Steps ODE solver를 이용한 빠르고 고품질의 샘플링 테일러 전개로 DDIM보다 더 많은 시간 단계를 뛰어 넘음 Arxiv Github Abstract Diffusion probabilistic model(DPM)의 샘플링은 일반적으로 대규모 순차 단계가 필요하기 때문에 오래 걸린다. (SDE) DPM의 샘플링은 확산 상미분 방정식(ODE)을 해결하는 것으로 대안적으로 볼 수 있다(DDIM). 본 논문에서는 확산 ODE 솔루션의 정확한 공식을 제안하고 모든 term을 블랙박스 ODE solver에 맡기는 대신 솔루션의 선형 부분을 분석적으로 계산한다. 아무튼 ODE를 위한 전용 solver인 DPM-solver를 제안한다. DPM-solver는 별도의 훈련 없이 20번 이하의 적은 단계로 고품질 샘플을 생.. Null-text Inversion for Editing Real Images using Guided Diffusion Models 이미지 편집을 위한 Diffusion Inversion Project Page Abstract 본 논문에서는 정확한 반전 기법을 도입하여 이미지의 직관적인 텍스트 기반 수정을 용이하게 한다. 무작위 노이즈 샘플을 단일 입력 이미지에 매핑하는 것이 아니라 단일 pivot 노이즈 벡터를 사용하고 그 주변을 최적화하는 pivotal 반전 입력 텍스트 임베딩이 아닌 classifier-free guidance에서 사용하는 무조건 텍스트 임베딩만 수정하는 null-text 최적화 Introduction Classifier-free guidance와 관련된 거의 모든 작업들이 조건부 부분에만 집중하지만, 본 논문의 연구진들은 무조건 부분에 의해 유도되는 상당한 효과를 인식했다. 프롬프트 반전을 위해 무조건 부분에 .. Prompt-to-Prompt Image Editing with Cross-Attention Control Attention map 주입을 통한 텍스트 기반 이미지 편집 Project Page Abstract 편집이 텍스트로만 제어되는 직관적인 prompt-to-prompt 편집 프레임워크. Cross attention이 중요하다는 것을 관찰하고 확산 과정을 따라 attention map을 주입하여 제어함. Introduction 핵심 아이디어는 확산 과정에서 cross attention map을 주입하여 확산이 진행되는 동안 프롬프트 텍스트의 토큰에 어떤 픽셀이 참여하는지 제어함으로써 이미지를 편집할 수 있다는 것이다. 위 그림과 같은 작업 가능 단어 교체 새로운 단어 추가 단어의 의미 효과를 증폭하거나 약화 Prompt-to-prompt는 다양한 text-to-image 모델에 적용될 수 있다. Metho.. Latent Diffusion Code GitHub - CompVis/latent-diffusion: High-Resolution Image Synthesis with Latent Diffusion Models High-Resolution Image Synthesis with Latent Diffusion Models - GitHub - CompVis/latent-diffusion: High-Resolution Image Synthesis with Latent Diffusion Models github.com 논문 리뷰 High-Resolution Image Synthesis with Latent Diffusion Models (LDM) Diffusion Model + Autoencoder + Cross Attention Github.. Scalable Diffusion Models with Transformers (DiT) 확산 모델에 트랜스포머 백본. JAX로 구현됨. Arxiv Github Project Page Abstract 확산 모델에서 일반적으로 사용되는 U-Net 백본을 잠재 패치에서 작동하는 트랜스포머로 대체한다. 트랜스포머의 깊이/폭 증가 또는 입력 토큰의 증가가 더 낮은 FID를 갖는다는 것을 발견하였으며 class-conditional ImageNet 512, 256에서 이전의 모든 확산 모델을 능가한 2.27 FID를 달성하였다. Introduction 본 연구에서는 U-Net의 유도 편향이 확산 모델의 성능에 중요하지 않으며, 트랜스포머와 같은 표준 설계로 쉽게 대체될 수 있음을 보여준다. 또한 트랜스포머를 기반으로 한 새로운 확산 모델인 Diffusion Transformer(DiT)를 소개한다. .. Improved Vector Quantized Diffusion Models 이산 확산 모델의 샘플링 전략 개선 Arxiv Github Abstract VQ-Diffusion에서 때때로 낮은 품질의 샘플이나 약한 상관관계의 이미지를 생성했는데, 주요한 원인 샘플링 전략 때문이라는 것을 발견하고 두 가지 중요한 기술을 제안한다. 이산 확산 모델에 대한 classifier-free guidance를 탐구하고 보다 일반적이고 효과적인 구현을 제안 VQ-Diffusion의 joint distribution 문제를 완화하기 위한 추론 전략 제안 Introduction VQ-Diffusion의 주요 장점 중 하나는 각 이산 토큰에 대한 확률을 추정할 수 있으므로 상대적으로 적은 추론 단계로 고품질 이미지를 생성한다는 것이다. 이를 바탕으로 VQ-Diffusion을 개선하기 위한 몇 가지 기.. Vector Quantized Diffusion Model for Text-to-Image Synthesis VQ-VAE + Diffusion + Masking Arxiv Github Abstract Diffusion + VQ-VAE + Masking. 확산으로 벡터 양자화에 의한 오차의 누적을 피하고 이미지 해상도에 따라 선형적으로 비용이 증가하는 선형 회귀 방법(AR)과 달리 엄청 빠르면서도 더 나은 품질을 보여준다. Introduction DALL-E와 같은 AR 방식의 단점 왼쪽 위에서 오른쪽 아래로 순차적으로 예측되기 때문에 편향 생김 추론 단계가 이전에 샘플링된 토큰을 기반으로 실행되기 때문에 앞선 토큰의 오차가 계속 누적되어 전파됨 따라서 확산 모델을 사용. 또한 네트워크 수렴을 위해 mask-and-replace 전략 사용. Background: Learning Discrete Latent Spa.. Paint by Example: Exemplar-based Image Editing with Diffusion Models Paint by Example 코드 리뷰, Paint by Example 써보기 예제 기반 이미지 편집(인페인팅) 모델 Arxiv Github Abstract 예제 기반 이미지 편집. Self-supervised training을 활용하여 소스와 예제를 분리시키고 재구성한다. 융합 아티팩트를 피하기 위해 information bottleneck과 강력한 증강을 제안함. 제어 가능성을 위해 classifier-free guidance를 사용하고 반복적인 최적화 없이 단일 forward로 진행된다. Introduction 먼저 예제 이미지를 조건으로 하는 확산 모델을 훈련한다. 텍스트 조건 모델과 달리 훈련 쌍을 수집하기가 힘들기 때문에 입력 이미지에서 개체를 잘라내어 사용한다. 하지만 위 방법은 문제가 있.. Classifier-Guidance Diffusion 논문 리뷰 Diffusion Models Beat GANs on Image Synthesis 논문 리뷰 Diffusion 모델 성능 개선, 분류기 가이드 도입 Github GitHub - openai/guided-diffusion Contribute to openai/guided-diffusion development by creating an account on GitHub. github.com Arxiv Diffusion Mo.. ostin.tistory.com 코드 GitHub - openai/guided-diffusion Contribute to openai/guided-diffusion development by creating an account on GitHub. github.com Clas.. Zero-Shot Image Restoration Using Denoising Diffusion Null-Space Model 사전 훈련된 확산 모델을 이용한 zero-shot 이미지 복원 모델 https://paperswithcode.com/paper/zero-shot-image-restoration-using-denoising Papers with Code - Zero-Shot Image Restoration Using Denoising Diffusion Null-Space Model Implemented in one code library. paperswithcode.com Abstract 추가 교육이나 네트워크 수정 없이 생성 prior로 사전 교육된 확산 모델만 있으면 되는 제로샷 이미지 복원 모델 Denoising Diffusion Null-Space Model (DDNM)을 제안. 이는 역확산 과정에서 null-sp.. 이전 1 ··· 34 35 36 37 38 39 40 ··· 45 다음