본문 바로가기

논문 리뷰/GAN

(20)
Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold (DragGAN) 드래그를 통해 이미지 제어 Github arXiv Abstract 드래그를 통해 이미지를 제어하는 DragGAN 제안 Introduction GAN의 feature space가 모션 감독과 정확한 포인트 추적을 가능하게 할 만큼 충분히 구별적이라는 핵심 통찰을 기반으로 함. 추가 네트워크에 의존하기 않기 때문에 몇 초 밖에 걸리지 않는 효율적인 조작 가능. 학습된 이미지 매니폴드에서 수행되기 때문에 사자 입 속의 이와 같은 콘텐츠 환각 또한 가능. Method StyleGAN2 아키텍처를 기반으로 handle point가 target point에 도달하도록 구동되는 대화형 이미지 조작을 목표로 함. Interactive Point-based Manipulation 사용자 정의 handle point pi..
StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis StyleGAN으로 text-to-image 따라잡기. 하지만 아직 갈 길이 멀다... Project Page stylegan-t StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis Axel Sauer Tero Karras Samuli Laine Andreas Geiger Timo Aila [PDF] [Code] sites.google.com Abstract Text-to-image를 위한 새로운 GAN 모델인 StyleGAN-T. Introduction GAN의 주요 이점은 합성 결과의 제어 가능성과 확산 모델에 비하면 매우 빠른 추론 속도. StyleGAN-XL에서 시작하여 다양한 데이터셋, 제어 가능..
Paint2Pix: Interactive Painting based ProgressiveImage Synthesis and Editing 사용자 입력 페인팅 이미지를 통해 간단히 이미지 편집, 합성 수행 Arxiv Github Abstract 불완전한 인간 그림의 manifold에서 사실적인 렌더링에 대한 매핑을 학습하여 기초적인 페인팅 입력에서 "사용자가 그리고 싶어 하는 것"을 예측 및 적응하는 방법을 배우는 새로운 접근 방식 paint2pix를 제안한다. Introduction 사실적인 이미지를 페인팅 이미지로 바꾸기 위해 agent로 Intelli-Paint 사용. 다음 그림과 같이 paint agent와 paint2pix를 통해 사용자가 점진적으로 원하는 그림을 그려나갈 수 있다. 또한 이미지 생성 외에 편집에도 사용할 수 있으며 섹션 6에서는 사용자 정의 편집이 수행된 이미지에 국한되지 않고 입력 도메인 전체에서 일반화됨을 보여..
Sketch Your Own GAN 논문 리뷰 스케치로 원하는 포즈를 그려서 GAN을 수정하는 방법. 근데 수동 작업이 좀 많고 실용성 0 임. 기대 ㄴㄴ Project Page Abstract 사용자가 GAN 교육을 더 쉽게 할 수 있도록 하나 이상의 스케치로 GAN을 다시 작성하는 GAN 스케치 방법을 제시한다. 모델의 출력이 교차 도메인 적대적 손실을 통해 사용자 스케치와 일치되도록 권장한다. 또한 원본 모델의 다양성과 이미지 품질을 보존하기 위해 다양한 정규화 방법을 탐색한다. Introduction 본 논문에서는 사용자가 제공하는 소수의 스케치 예제에 생성 모델을 맞춤화하는 방법을 개발하는 것을 목표로 한다. 이를 위해 원본 모델의 색상, 질감 및 배경 context를 유지하면서 새 모델이 사용자 스케치와 유사한 이미지를 생성하도록 권장하는..
Rewriting a Deep Generative Model 논문 리뷰 사전 훈련된 심층 모델에서 특정 하위 집합만 변형되도록 네트워크 규칙 변경 Github Arxiv Abstract GAN과 같은 심층 생성 모델에서 네트워크가 인코딩 되는 규칙을 조작할 수 있는 방법을 소개한다. 해당 논문의 방법으로 GAN에서 특정 부분, 특정 하위 집합만을 조작할 수 있다. Introduction 심층 네트워크의 의미 및 물리적 규칙을 추가, 제거 및 변경하는 것을 목표로 하는 모델 재작성 작업을 제시한다. 모델 내에서 특정한 의미 관계를 찾고 변경하기 위해 선형 연관 메모리의 개념을 심층 생성기의 비선형 컨볼루션 레이어로 일반화하는 방법을 보여준다. 각 레이어는 숨겨진 feature에 대한 키-값 관계 세트로 잠재 규칙을 저장한다. 본 논문의 제한된 최적화는 모델의 기존 의미 관계를..
Rewriting Geometric Rules of a GAN (GANWarping) 논문 리뷰 잠재 공간 편집이 아닌 사람이 수동으로 편집한 변형을 GAN에 적용하는 방법. Github Project Page Abstract 사용자가 원하는 기하학적 변경으로 소수의 원본 모델 출력을 편집하여 주어진 모델을 "왜곡" 할 수 있도록 한다. 편집된 샘플 재구성하기 위해 단일 모델 레이어에 low-rank 업데이트를 적용하고 과적합을 방지하기 위해 스타일 믹싱을 기반으로 하는 잠재 공간 증강 방법을 제안한다. Introduction 기존의 GAN 반전과 적응 방법은 기하학적으로 왜곡된 적은 샘플만으로 GAN을 적응시키기가 어렵다. 이러한 문제를 해결하기 위해 원본 샘플과 뒤틀린 버전 간의 재구성 손실로 모델 가중치를 직접 최적화한다. 또한 스타일 믹싱 기반의 증강 체계와 low-rank 업데이트를 제안한..
Learning to Cartoonize Using White-box Cartoon Representations 논문 리뷰 이미지를 세 단계 표현으로 분해하여 만화화 Project Page Github Abstract 본 논문은 이미지 만화화에 대한 접근 방식을 제시한다. 만화 그림을 관찰함으로써 세 가지 white-box 표현(매끄러운 표면 표현, 구조 표현, 텍스처 표현)을 각각 별도로 식별할 것을 제안한다. Introduction 다양한 만화 스타일과 사용 사례에 사용 가능한 알고리즘을 개발하기 위해서는 작업별 가정 또는 사전 지식이 필요하다. 이러한 점은 사용 사례에서 다양한 요구에 직면할 때 블랙박스 모델의 문제가 생긴다. 먼저, 이미지를 여러 표현으로 분해한다. 이미지의 매끄러운 표면을 나타내기 위한 표면 표현 : 이미지 I가 주어지면 텍스처 및 세부사항이 무시된 채 보존되는 가중 저주파 성분 Isf를 추출한다. ..
DCT-Net : Domain-Calibrated Translation for Portrait Stylization 논문 리뷰 Cross domain translation을 full-image에서 one-path로 가능하게 한 모델 Project Page Abstract Few-shot 초상화 스타일링을 위한 새로운 이미지 변환 아키텍처인 DCT-Net(이하 DCT)을 소개한다. DCT는 제한된 스타일 예제(~100)로 높은 충실도의 콘텐츠 합성과 복잡한 장면을 처리할 수 있는 강력한 일반성을 제공한다. 또한 부분 관찰에 의해 훈련된 평가 네트워크를 통해 전신 이미지 변환을 가능하게 한다. Introduction 이미지 변환, 전송, 반전 모델의 발전에도 불구하고 제한된 일반화 능력, 도메인 간의 콘텐츠 누락 문제, 전신 이미지에 적용할 수 없는 문제 등으로 인해 어려움을 겪는다. 본 논문의 목표는 높은 컨텐츠 합성 능력, 강력..
StyleSpace Analysis: Disentangled Controls for StyleGAN Image Generation 논문 리뷰 W+ 공간보다 S 공간이 훨씬 더 disentangle 한 제어를 제공한다는 것을 증명하고 S 공간에서 특정 속성을 제어하는 채널을 탐색하는 방법을 제안하였다. Github Abstract StyleSpace가 다른 중간 잠재 공간보다 훨씬 더 분리되어 있음(disentangle)을 보여준다. 뚜렷한 시각적 속성을 제어하는 스타일 채널의 대규모 컬렉션을 발견하는 방법을 설명한다. 사전 훈련된 분류기 또는 소수의 예제 이미지를 사용하여 특정 속성을 제어하는 스타일 채널을 식별하는 간단한 방법을 제안한다. StyleSpace 컨트롤을 실제 이미지 조작에 적용할 수 있음을 보여준다. Introduction 중간 잠재 공간 W, W+를 본 논문에서는 StyleSpace S 공간을 조사한다. 이후 섹션에서는 S ..
ReStyle: A Residual-Based StyleGAN Encoder via Iterative Refinement 논문 리뷰 인코더 기반 반전과 직접 최적화 반전을 결합한 반전 인코더 모델. Github Abstract 본 연구에서는 현재 반전 접근법의 한계를 인식하고 반복적인 개선 메커니즘을 도입하여 새로운 반전 체계를 제시한다. 주어진 실제 이미지의 잠재 코드를 직접 예측하는 대신 반전된 잠재 코드의 현재 추정치에 대한 잔차를 자체 수정 방식으로 예측하는 작업을 수행한다. ReStyle 인코더는 추론 시간이 거의 증가하지 않고 향상된 정확도를 달성한다. Introduction 단일 전진 pass로 잠재 코드를 추론하는 일반적인 인코더 기반 반전과 달리 반복적인 피드백 메커니즘을 도입, 인코더에 원래 입력 이미지와 함께 이전 반복의 출력을 공급하여 여러 개의 전진 pass를 사용하여 반전이 수행된다. 잠재 공간의 측면에서, ..
Cross-Domain Style Mixing for Face Cartoonization 논문 리뷰 Face style transfer에서 기존의 사전 훈련 인코더 방법의 문제점을 해결하고 더 견고하고 향상된 stylization 프레임워크 제안 Project Page Arxiv Abstract 본 논문에서는 서로 다른 두 도메인의 두 잠재 코드를 결합하는 Cross-domain Style mixing이라는 새로운 방법을 제안한다. 새로운 방법은 훈련 이미지조차 사용하지 않고 단일 생성기만을 사용하여 다양한 얼굴 추상화 수준에서 얼굴을 여러 만화 캐릭터로 효과적으로 스타일링한다. Introduction Toonify에서는 레이어 스와핑을 도입해 두 가지 스타일을 보간했다.(내가 만들었던 볼짤콘 모델과 퍼리 모델에서도 레이어 스와핑을 사용했었다.) 그러나 레이어 스와핑은 미세 표현이 힘들고 거리가 먼 도..
Spatially-Adaptive Multilayer Selection for GAN Inversion and Editing 논문 리뷰 이미지의 가역성 맵을 예측하여 물체의 유형에 따라 각각 다른 계층에서 편집을 수행하는 SAM inversion을 제안. Project Page Spatially-Adaptive Multilayer Selection for GAN Inversion and Editing Spatially-Adaptive Multilayer Selection for GAN Inversion and Editing www.cs.cmu.edu Abstract 기존의 GAN 반전 및 편집 방법은 복잡한 장면과 개체 폐색으로 인해 종종 어려움을 겪는다. 본 논문에서는 GAN의 잠재 공간에서 이러한 복잡한 이미지를 반전하고 편집하는 새로운 방법을 제안한다. 핵심 아이디어는 이미지의 난이도에 따라 반전 프로세스를 공간적으로 적응시키면서 ..