본문 바로가기

논문 리뷰/GAN

Spatially-Adaptive Multilayer Selection for GAN Inversion and Editing 논문 리뷰

이미지의 가역성 맵을 예측하여 물체의 유형에 따라 각각 다른 계층에서 편집을 수행하는 SAM inversion을 제안.

 

Project Page

 

Spatially-Adaptive Multilayer Selection for GAN Inversion and Editing

Spatially-Adaptive Multilayer Selection for GAN Inversion and Editing

www.cs.cmu.edu

 

 

 

Abstract

기존의 GAN 반전 및 편집 방법은 복잡한 장면과 개체 폐색으로 인해 종종 어려움을 겪는다. 본 논문에서는 GAN의 잠재 공간에서 이러한 복잡한 이미지를 반전하고 편집하는 새로운 방법을 제안한다. 핵심 아이디어는 이미지의 난이도에 따라 반전 프로세스를 공간적으로 적응시키면서 레이어 모음을 사용하여 반전을 탐색하는 것이다. 먼저 서로 다른 이미지 segment의 반전 가능성을 예측하고 각 segment를 잠재 계층으로 투영한다. 더 쉬운 영역은 G의 잠재 공간에서 더 이른 레이어로 반전될 수 있는 반면, 더 어려운 영역은 나중에 반전될 수 있다.  

 

 

 

Introduction

기존의 반전 방법들은 다양한 시각적 외관과 어수선한 배경을 가지고 있는 도메인에서는 잘 적용되지 않았다. 본 연구에서는 복잡한 이미지를 더 잘 반전시키는 것을 목표로 하며 두 가지 주요 관찰을 기반으로 방법을 구축한다.

 

  • Spatially-adaptive invertibility이미지 내의 영역에 따라 반전 난이도가 달라진다.
  • The trade-off between invertibility and editability : 레이어 선택으로 가역성과 편집성을 절충할 수 있다. 예를 들어, 초기 잠재 계층은 까다로운 이미지를 재구성할 수 없지만 의미 있는 편집을 허용한다. 반대로, 중간 레이어를 사용하는 반전은 편집성의 저하를 감수하고 이미지를 더 정확하게 재구성한다.

 

 

 

반면, 본 논문에서 제안하는 spatially-adaptive multilayer(SAM) 반전은 이미지에 대한 가역성 맵을 추론하여 각각 다른 계층에서 반전한다.

 

 

 

Approach

Predicting Invertibility

먼저 실제 이미지 x와 그 반전 x̂ 쌍 데이터셋을 이용해 5개의 잠재 공간 Φ(W+, F4, F6, F8, F10)에서 재구성 손실을 계산한다.

 

얻은 재구성 맵으로 가역성을 예측모델 Sl을 훈련한다.

 

 

가역성 예측의 모호함을 해소하기 위해 사전 훈련된 segmentation 모델을 이용하여 예측을 세분화한다.

 

Adaptive Latent Space Selection

위에서 언급했던 것처럼 이미지 반전은 얕은 계층일수록 편집성이 좋고, 깊은 계층일수록 재구성 품질이 좋다.

 

가역성 예측에 따라 반전할 계층을 선택하는 것은 딱히 알고리즘 같은 것은 없고 연구진이 경험적으로 임계값을 정해놓고 그 값에 따라 지정한다고 한다.

 

Training Objective

각 이미지의 잠재 공간 Φ를 직접 최적화하는 최적화 기반, 각 잠재 공간에 대해 별도의 인코더를 훈련하는 인코더 기반으로 구현한다.

 

 

W+ 공간은 styleGAN2 레이어 변조에 직접 사용되며, feature공간의 경우 feature 자체를 직접 예측하지 않고 변화율 ∆f를 예측한다.

 

공식은 다음과 같다.

(해당 계층에서는 이전 계층의 feature에 w+를 반영하고 ∆f를 더한 feature를 출력한다.) 

 

Losses

재구성 손실.

 

Feature의 변경이 너무 크지 않도록 하는 정규화항 추가.

 

W+ 공간에는 다른 정규화를 적용한다.

(첫 번째 항은 이 논문에서 제안한 gaussian prior이다. W+ 잠재 공간이 가우시안 분포를 따르도록 한다. 이는 W+ 공간에서 매핑 네트워크의 역할을 대신하며, 반전 능력과 생성 품질을 향상한다.)

(ŵn = LeakyReLU(w+n, 5.0))

(두 번째 항은 각각의 스타일 코드들이 첫 번째 스타일 코드에서 크게 벗어나지 않도록 한다.)

 

최종 손실 함수 :

 

Image Editing

편집 방향을 찾기 위해 GANSpace와 StyleCLIP을 사용한다.

W+ 공간에서 반전되는 부분은 전체 과정에서 변조되지만, feature 공간에서 반전되는 부분은 해당 레이어 이후의 레이어들에서만 변조된다.

 

 

 

Experiments

Runtime

 

Reconstruction comparison to prior methods

 

User preference comparison

 

 

 

 

정량적 평가보다는 정성적 평가가 훨씬 유의미한 분야이다 보니 논문의 부록에 훨씬 더 많은 정성적 평가 이미지들이 있다.