본문 바로가기

논문 리뷰/GAN

StyleSpace Analysis: Disentangled Controls for StyleGAN Image Generation 논문 리뷰

W+ 공간보다 S 공간이 훨씬 더 disentangle 한 제어를 제공한다는 것을 증명하고 S 공간에서 특정 속성을 제어하는 채널을 탐색하는 방법을 제안하였다.

 

Github

 

 

 

 

Abstract

  • StyleSpace가 다른 중간 잠재 공간보다 훨씬 더 분리되어 있음(disentangle)을 보여준다. 
  • 뚜렷한 시각적 속성을 제어하는 스타일 채널의 대규모 컬렉션을 발견하는 방법을 설명한다.
  • 사전 훈련된 분류기 또는 소수의 예제 이미지를 사용하여 특정 속성을 제어하는 스타일 채널을 식별하는 간단한 방법을 제안한다.
  • StyleSpace 컨트롤을 실제 이미지 조작에 적용할 수 있음을 보여준다.

 

 

 

 

Introduction

중간 잠재 공간 W, W+를 본 논문에서는 StyleSpace S 공간을 조사한다. 이후 섹션에서는 S 공간의 분리 및 완전성을 측정하고 비교한 뒤, StyleSpace 채널을 감지하고 제어하는 방법을 제안한다. StyleSpace 채널은 놀라울 정도로 잘 분리되어 있다.

 

또한 이미지 조작 제어의 분리를 비교할 메트릭이 없기 때문에 새로운 척도로 Attribute Dependency(AD)를 제안한다.

 

 

 

Disentanglement of StyleGAN latent spaces

출처 : 딥러닝논문읽기모임 유튜브 StyleSpace

아핀 변환을 지난 S 공간의 차원(=9088)은 W+ 공간의 차원(18x512=9216) 보다 적다.

 

잠재 공간 중 어느 것이 가장 잘 분리된 표현을 제공하는지를 결정하기 위해 DCI 메트릭을 사용한다.

  • Disentanglement : 각 잠재 차원이 최대 하나의 속성을 포착하는 정도
  • Completeness : 각 속성이 최대 하나의 잠재 차원에 의해 제어되는 정도
  • Informativeness : 주어진 잠재 표현에서 속성의 분류 정확도

 

 

사전 훈련된 분류기를 통한 DCI 평가 결과. S 공간이 가장 좋은 점수를 받았다.

 

 

 

Detecting locally-active style channels

이 섹션에서는 특정 로컬 영역의 시각적 외관을 제어하는 StyleSpace 채널을 감지하는 간단한 방법을 설명한다.

 

역전파로 gradient map G를 얻고 사전 훈련된 이미지 분할 네트워크를 통해 semantic map M을 얻은 다음 단순히 겹친 부분을 측정한다.

(비용 절약을 위해 저해상도에서 계산, 괄호는 i 번째 레이어 스타일 코드의 j번째 채널 = u = 9088차원 중 하나의 차원, c는 의미 범주(ex. 머리카락, 입))

(s는 임의의 스타일 코드, t는 임계값, d는 작은 영역과 큰 영역 사이의 가중치 균형을 위한 계수 )

 

다양한 이미지에서 일관성을 유지하기 위해 1,000개의 서로 다른 스타일 코드를 샘플링하고 중첩 계수가 가장 높은 의미 범주 cs,u를 사용하여 각 스타일 코드와 각 채널에 대해 계산한다.

 

목표는 샘플링된 이미지의 대부분에 대해 가장 높은 중첩 범주가 동일한 채널을 탐지하는 것이다.

 

이렇게 얻은 StyleSpace 채널로 매우 국부적이고 분리된 조작이 가능하다.

 

 

 

Detecting attribute-specific channels

이 섹션에서는 특정 속성을 제어하는 StyleSpace 채널을 식별하는 방법을 제안한다.

많은 양의 양성과 음성 샘플이 필요한 이전의 방법과 달리, 10~30개의 적은 양성 샘플만을 필요로 한다.

 

출처 : 딥러닝논문읽기모임 유튜브 StyleSpace

 

먼저 모집단과 양성 샘플 간의 정규화된 차이 δ를 구하고 양성 샘플 집단의 평균이 각 StyleSpace 채널의 원소에 대해 모집단 평균에서 벗어나는 정도를 구한다.

 

이렇게 구해진 Θu가 가장 높은 StyleSpace 채널이 해당 속성을 제어한다고 할 수 있다.

 

Experiments

실험으로 먼저 26개의 속성에 대해 각각 1,000개의 긍정적인 예제를 뽑고 Θ가 가장 높은 30개의 예제를 선별한 뒤 대상 속성이 실제로 제어되는지 확인한다. 

 

절반 이상의 스타일이 단일 StyleSpace 채널에 의해 제어되었으며 성별, 머리 색 등 명확한 속성은 단일 채널로 제어되었지만 머리스타일 등 세부적인 속성은 여러 개의 채널에서 식별되었다.

 

또한 위의 그래프와 같이 이전 활성 채널 감지에서 높은 중첩 범주에 속했던 채널이 실제로 제어 채널이었을 확률이 꽤 높았으며(파란색), 대상 속성의 로컬 영역으로 좁히면(ex. 'smile'이라면 입) 훨씬 높아졌다(주황색).

 

이로써 적은 수의 긍정적인 샘플 만으로 해당 속성을 제어하는 StyleSpace 채널을 찾을 수 있다는 것을 알 수 있다.

 

 

 

Disentangled attribute manipulation

StyleSpace는 다른 방법들보다 더 disentangle 하다.

 

또한 특정 속성이 일정량 만큼 조작되었을 때 다른 속성의 변화율을 측정하는 메트릭인 Attribute Dependency를 제안하고 측정한다.

 

 

 

이미지를 잠재코드로 반전하기 위한 인코더 모델도 짤막하게 제안했지만 요즘에는 훨씬 더 좋은 인코더가 많으므로 pass.