Face style transfer에서 기존의 사전 훈련 인코더 방법의 문제점을 해결하고 더 견고하고 향상된 stylization 프레임워크 제안
Abstract
본 논문에서는 서로 다른 두 도메인의 두 잠재 코드를 결합하는 Cross-domain Style mixing이라는 새로운 방법을 제안한다. 새로운 방법은 훈련 이미지조차 사용하지 않고 단일 생성기만을 사용하여 다양한 얼굴 추상화 수준에서 얼굴을 여러 만화 캐릭터로 효과적으로 스타일링한다.
Introduction
Toonify에서는 레이어 스와핑을 도입해 두 가지 스타일을 보간했다.(내가 만들었던 볼짤콘 모델과 퍼리 모델에서도 레이어 스와핑을 사용했었다.) 그러나 레이어 스와핑은 미세 표현이 힘들고 거리가 먼 도메인에서 feature가 왜곡되는 등의 품질 문제가 있다.
본 논문에서 제안하는 교차 도메인 스타일 믹싱(이하 CDSM)은 사전 훈련된 인코더를 통해 두 도메인의 W+ 공간 잠재 코드를 얻고 S 공간에서 스타일 믹싱을 수행한다. 또한 도메인 불일치로 인한 색상 아티팩트를 제거하기 위해 tRGB 교체 메소드를 사용한다.
또한 CDSM은 styleGAN2 finetuning을 제외하면 추가적인 훈련 트릭이나 아키텍처 조정이 필요하지 않아 훈련 및 배포의 효율성이 높다.
본 논문의 기여는 다음과 같다.
- 만화 스타일 생성으로써 레이어 스와핑의 한계를 조사
- 적은 데이터로 얼굴을 여러 만화 캐릭터로 스타일링할 수 있는 스타일화 프레임워크 제안
Background
Layer swapping(원래 G와 finetuned G의 계층을 섞는 것)
Motivation & Pre-analysis
레이어 스와핑의 문제점
- 원래의 생성기는 매핑 네트워크에서 나온 W 공간의 훈련 분포에서 샘플링된 이미지를 생성하는데, 레이어 스와핑의 경우 각 도메인의 잠재 벡터가 각각 다른 분포에서 샘플링되기 때문에 출력 이미지가 캐릭터별 정체성을 잃게 된다
- 출력 이미지에 색 왜곡이 있다. 사전 훈련된 인코더가 이미지를 잠재 코드로 반전할 때 대상 만화 도메인이 아닌 소스 도메인에서만 색상 범위를 나타내기 때문에 품질이 저하될 수 있다.(이거 진짜 폭풍 공감...)
이전 연구는 이 문제를 해결하기 위해 VAE 인코더와 같은 특별히 훈련된 인코더를 채택했지만 그러한 방식은 자연 얼굴의 질감과 특징을 과도하게 보존한다.
Method
CDSM은 서로 다른 도메인의 잠재 코드를 단일 생성기에서 믹싱 한다.
Framework
목표는 얼굴 이미지 xf와 만화 이미지 xc를 이용하여 스타일화 된 이미지 x̂c를 생성하는 것이다.
먼저 각 만화 데이터 세트에서 이미지를 k개씩 샘플링한 뒤 고해상도 레이어를 스와핑 한 생성기 Gswap으로 반전해 잠재 코드 wc를 얻는다.
입력 얼굴 이미지는 추론 단계에서 소스 도메인(FFHQ)으로 반전된다.
중요한 것은 Gswap의 초기 레이어는 기존 G와 같기 때문에 wf와 wc는 결과적으로 같은 잠재 공간에서 생성된다는 것이다.
그러고 난 후 출력을 생성한다.(m으로 스타일의 강도를 조절)
(SM = StyleSpace의 스타일 믹싱, R은 tRGB 교체 메소드, A는 아핀 변환)
Style mixing in StyleSpace
Gswap의 저해상도 레이어에서는 만화 스타일 생성기로 스와핑 된 고해상도 레이어에 맞지 않는 인간 얼굴 feature를 생성한다.(a는 만화 데이터, b는 finetuned G에 의해 생성된 이미지, c는 layer swap G에 의해 생성된 이미지)
때문에 인간 대신 만화 이미지를 반전하고 각 ID로 평균을 내어 명시적으로 wc를 생성한다. 이 작업을 통해 포즈 및 노이즈 불변성을 얻는다.
S 공간 잠재 코드를 얻고 tRGB 교체 메소드로 sf의 일부를 sc로 교체한 뒤 스타일 믹싱을 수행한다.
(t(m)은 w+의 인덱스를 s에 매핑하는 함수)
tRGB replacement
Gswap의 잠재 공간에서 샘플링된 이미지(b)는 색상 아티팩트가 전혀 없지만 FFHQ restyle encoder로 반전한 잠재 코드로 생성된 이미지(a)에는 색상 아티팩트가 생긴다.
연구진은 인코더가 tRGB 레이어에 대해 out-of-distribution인 stRGB를 생성한다는 것을 발견했다.
의미론적 feature는 유지하고 색상만 변경하기 위해 sf의 tRGB 부분을 sc의 것으로 대체한다.
tRGB 교체 메소드는 색상 문제를 해결할 뿐만 아니라 스타일 전달에도 도움이 된다.(오른쪽)
Experiments & Applications
스타일 믹싱을 빼고 기본 설정을 사용한 FFHQ 사전 훈련된 StyleGAN2-ADA로 미세 조정하고 32x32에서 레이어 스왑.
스타일 믹싱 level m = 6, 샘플링 수 k = 50.
정성적 평가
정량적 평가
Ablation
a - 스타일 믹싱, tRGB 교체 모두 제외
b - 스타일 믹싱 제외
c - tRGB 교체 제외
d - Full model
잠재 공간 비교
(a) - 원본, (b) - w 공간 잠재 코드로 생성된 이미지, (c) - w+ 공간 잠재코드로 생성된 이미지
tRGB 교체가 구조에는 전혀 영향을 주지 않는다는 것을 보여준다.
Applications
사진-만화 변환은 다음과 같은 과정으로 이루어진다.
- 얼굴 감지
- CDSM으로 얼굴 스타일링
- Cartoonization 모델을 통한 전체 scene 변환
- 얼굴과 scene의 조화
Conclusion
- 초상화 스타일링에서 색 왜곡 및 스타일 다양성 문제를 성공적으로 해결
- 만화 캐릭터에 대해 단일 생성기만을 사용하여 우수한 스타일화 결과를 생성