본문 바로가기

전체 글

(528)
Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding (Imagen) 텍스트 임베딩으로 대형 언어 모델 사용. 동적 임계값, Efficient U-Net 제안. Project Page Imagen: Text-to-Image Diffusion Models Imagen unprecedented photorealism × deep level of language understanding unprecedented photorealism deep level of language understanding We present Imagen, a text-to-image diffusion model with an unprecedented degree of photorealism and a deep level of la imagen.research.google Abstract 전례 없는 수..
An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion 확산 모델에 새로운 시각적 words 임베딩 Project Page An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion Text-to-image models offer unprecedented freedom to guide creation through natural language. Yet, it is unclear how such freedom can be exercised to generate images of specific unique concepts, modify their appearance, or compose them in new roles and nove textual-inve..
Text-Guided Synthesis of Artistic Images with Retrieval-Augmented Diffusion Models RDM의 DB를 교체하여 스타일화 하는 simple trick Arxiv Abstract Retrieval-Augmented Diffusion Models(RDM)의 추론 중에 검색 DB를 특정 비주얼 스타일의 이미지만 포함하는 보다 전문화된 DB로 교체한다. 이것은 일반 훈련된 모델에 특정 시각적 스타일을 지정하는 새로운 방법을 제공한다. 본 논문의 작업은 계산 복잡성이 낮은 RDM을 기반으로 한다. Recap on Retrieval-Augmented Diffusion Models RDM의 목적 함수 Dtrain을 Dstyle로 교체. Text-Guided Synthesis of Artistic Images with RDMs 하단 : ImageNet에서 훈련된 RDM 모델 상단 : DB를 ImageNe..
High-Resolution Image Synthesis with Latent Diffusion Models (LDM) LDM 코드 리뷰 Diffusion Model + Autoencoder + Cross Attention Github GitHub - CompVis/latent-diffusion: High-Resolution Image Synthesis with Latent Diffusion Models High-Resolution Image Synthesis with Latent Diffusion Models - GitHub - CompVis/latent-diffusion: High-Resolution Image Synthesis with Latent Diffusion Models github.com Abstract 품질과 유연성을 유지하면서 제한된 계산 리소스에 대한 확산 모델 훈련을 가능하게 하기 위해 사전 훈련된 ..
Retrieval-Augmented Diffusion Models 논문 리뷰 CLIP을 이용한 검색 기반 확산 모델 Arxiv Code Abstract 자연어 처리에서의 성공적인 적용에 영감을 받아 검색 기반 접근 방식으로 확산 모델을 보완하고 외부 데이터베이스 형태의 명시적 메모리를 도입할 것을 제안한다. 본 논문의 확산 모델은 CLIP을 통해 각 훈련 인스턴스의 이웃에서 검색된 유사한 시각적 특징으로 훈련된다. 또한 적은 계산 및 메모리 오버헤드를 발생시키고 구현하기 쉽다. Introduction 확산 모델을 사용한 retrieval-augmented 생성 모델링을 위한 간단한 프레임워크를 제시한다. CLIP의 잠재 공간을 검색하고 조건화하여 계산 오버헤드가 거의 없는 가장 가까운 이웃 표현을 통합하는 효율적인 방법을 제시한다. 검색이 빠르고 CLIP 임베딩에 대한 컨디셔닝에..
Paint2Pix: Interactive Painting based ProgressiveImage Synthesis and Editing 사용자 입력 페인팅 이미지를 통해 간단히 이미지 편집, 합성 수행 Arxiv Github Abstract 불완전한 인간 그림의 manifold에서 사실적인 렌더링에 대한 매핑을 학습하여 기초적인 페인팅 입력에서 "사용자가 그리고 싶어 하는 것"을 예측 및 적응하는 방법을 배우는 새로운 접근 방식 paint2pix를 제안한다. Introduction 사실적인 이미지를 페인팅 이미지로 바꾸기 위해 agent로 Intelli-Paint 사용. 다음 그림과 같이 paint agent와 paint2pix를 통해 사용자가 점진적으로 원하는 그림을 그려나갈 수 있다. 또한 이미지 생성 외에 편집에도 사용할 수 있으며 섹션 6에서는 사용자 정의 편집이 수행된 이미지에 국한되지 않고 입력 도메인 전체에서 일반화됨을 보여..
Cascaded Diffusion Models for High Fidelity Image Generation 논문 리뷰 Cascade 구조를 통해 확산 모델에서 고해상도 샘플 생성 Arxiv Abstract Cascade 확산 모델이 샘플 품질을 높이기 위한 보조 이미지 분류기의 도움 없이 충실도가 높은 이미지를 생성할 수 있음을 보여준다. Cascade 확산 모델은 가장 낮은 해상도에서 표준 확산 모델로 시작하여 이미지를 연속적으로 업샘플링하고 더 높은 해상도 세부 사항을 추가하는 하나 이상의 초해상도 확산 모델이 뒤따르는 형태로 다중 확산 모델 파이프라인으로 구성된다. 또한 연구진은 conditioning augmentation이 cascade 모델에서 샘플링하는 동안 복합 오류를 방지하여 cascading pipeline을 훈련하는 데 도움이 된다는 것을 발견했다. Introduction Cascading diffu..
Pretraining is All You Need for Image-to-Image Translation (PITI) 논문 리뷰 사전 훈련된 확산 모델을 통한 image-to-image 변환 Project Page PITI Pretraining is All You Need for Image-to-Image Translation Diverse samples synthesized by our approach. Abstract We propose to use pretraining to boost general image-to-image translation. Prior image-to-image translation methods usually need dedicated arch tengfei-wang.github.io Abstract 이전의 image-to-image 변환 방법은 전용 아키텍처 설계가 필요하고 처음부터 훈련하며 대규모..
Classifier-Free Diffusion Guidance 논문 리뷰 분류기 없는 가이드로 Inception score와 FID 절충 Arxiv Abstract 분류기 없이 순수한 생성 모델에 의해 가이드가 실제로 수행될 수 있음을 보여준다. Classifier-free guidance로 조건부 및 무조건 모델을 공동으로 훈련하고 결과 점수 추정치를 결합하여 샘플 품질과 다양성 간의 균형을 달성한다. Introduction 분류기 지침에 대한 이전의 연구는 확산 모델의 점수 추정치를 분류기의 gradient와 혼합했다. Gradient의 강도를 변경하여 Inception score와 FID 점수를 절충할 수 있다. 하지만 분류기 지침은 모델 파이프라인을 복잡하게 만들고 노이즈가 있는 데이터에 대해 훈련해야 하므로 사전 훈련된 분류기를 사용할 수 없다. 또한 분류기의 gra..
Diffusion Models Beat GANs on Image Synthesis 논문 리뷰 Diffusion 모델 성능 개선, 분류기 가이드 도입 Github GitHub - openai/guided-diffusion Contribute to openai/guided-diffusion development by creating an account on GitHub. github.com Arxiv Diffusion Models Beat GANs on Image Synthesis We show that diffusion models can achieve image sample quality superior to the current state-of-the-art generative models. We achieve this on unconditional image synthesis by findi..
Diffusion Model 공부 자료 https://lilianweng.github.io/posts/2021-07-11-diffusion-models/ (Diffusion의 바이블) What are Diffusion Models? [Updated on 2021-09-19: Highly recommend this blog post on score-based generative modeling by Yang Song (author of several key papers in the references)]. So far, I’ve written about three types of generative models, GAN, VAE, and Flow-based models. They lilianweng.github.io https://www.you..
Sketch Your Own GAN 논문 리뷰 스케치로 원하는 포즈를 그려서 GAN을 수정하는 방법. 근데 수동 작업이 좀 많고 실용성 0 임. 기대 ㄴㄴ Project Page Abstract 사용자가 GAN 교육을 더 쉽게 할 수 있도록 하나 이상의 스케치로 GAN을 다시 작성하는 GAN 스케치 방법을 제시한다. 모델의 출력이 교차 도메인 적대적 손실을 통해 사용자 스케치와 일치되도록 권장한다. 또한 원본 모델의 다양성과 이미지 품질을 보존하기 위해 다양한 정규화 방법을 탐색한다. Introduction 본 논문에서는 사용자가 제공하는 소수의 스케치 예제에 생성 모델을 맞춤화하는 방법을 개발하는 것을 목표로 한다. 이를 위해 원본 모델의 색상, 질감 및 배경 context를 유지하면서 새 모델이 사용자 스케치와 유사한 이미지를 생성하도록 권장하는..