인코더 기반 반전과 직접 최적화 반전을 결합한 반전 인코더 모델.
Abstract
본 연구에서는 현재 반전 접근법의 한계를 인식하고 반복적인 개선 메커니즘을 도입하여 새로운 반전 체계를 제시한다. 주어진 실제 이미지의 잠재 코드를 직접 예측하는 대신 반전된 잠재 코드의 현재 추정치에 대한 잔차를 자체 수정 방식으로 예측하는 작업을 수행한다. ReStyle 인코더는 추론 시간이 거의 증가하지 않고 향상된 정확도를 달성한다.
Introduction
단일 전진 pass로 잠재 코드를 추론하는 일반적인 인코더 기반 반전과 달리 반복적인 피드백 메커니즘을 도입, 인코더에 원래 입력 이미지와 함께 이전 반복의 출력을 공급하여 여러 개의 전진 pass를 사용하여 반전이 수행된다.
잠재 공간의 측면에서, ReStyle의 잔차 인코더는 현재 잠재 코드와 새로운 잠재 코드 사이의 오프셋을 예측하도록 훈련된다. 이러한 방법으로 반전을 점진적으로 수렴할 수 있다.
Preliminaries
인코더 기반 이미지 반전의 목표는 입력 이미지와 생성기 G(일반적으로 styleGAN2)에 대해 x에 근사하는 ŷ = G(E(x))를 생성하는 것이다. 대부분의 인코더 기반 방법은 L2 손실과 지각 손실, 추가적으로 정규화 손실 등을 사용한다.
Method
각 단계 t에서 ReStyle은 입력 이미지 x와 현재 예측 ŷ를 연결한 확장된 입력에 대해 작동한다.
확장된 입력 xt가 주어지면 잔차 코드 ∆t를 계산하고
예측을 업데이트한다.
초기 이미지 ŷ0은 G의 평균 스타일 벡터 w0에 의해 생성된 이미지이다.
ReStyle은 최적화 기반 반전과 인코더 기반 반전을 결합한 방법이라고 볼 수 있다.
추론 단계에서는 적은 반복 수(<10)를 사용한다.
Encoder Architecture
pSp, e4e 등 최첨단 반전 인코더는 계층적 피라미드 네트워크를 채택하고 세 가지 수준에서 style feature를 추출한다. 하지만 ReStyle의 다단계 특성이 복잡한 아키텍처의 필요성을 완화하기 때문에 해당 인코더들의 간단한 변형을 사용한다.
Style feature는 최종 feature map에서만 추출되며, k개의 스타일 입력(w+의 필요 벡터 수)이 있는 G가 주어지면 k개의 map2style 블록이 해상도에 맞게 feature map을 조정하고 512차원 스타일 벡터를 얻는다. 자세한 추가 정보는 부록 참조.
Experiments
정성적 평가
(최적화와 하이브리드(인코더 + 최적화) 방법은 시간이 오래 걸리는 것을 고려해야함.)
정량적 평가
반복 단계의 뒤로 갈수록 coarse -> fine feature가 수정됨.
Editing 성능
반전의 점진적인 개선
Encoder Bootstrapping
보통의 image-to-image translation에서는 finetuned G에서 인코더를 통해 실제 이미지와 가장 가까운 잠재 코드를 얻고 해당 이미지를 생성한다.
하지만 ReStyle에서는 잔차 특성을 이용해 bootstrapping이라는 추가적인 방법을 사용하는데,
먼저 기존 G(FFHQ)에서 반전하고 그 출력을 finetuned G의 인코더 초깃값으로 사용한다. 이러한 초기화는 정체성 유지와 충실한 반전에 도움이 된다.