본문 바로가기

논문 리뷰/GAN

EqGAN-SA : Improving GAN Equilibrium by Raising Spatial Awareness 논문 리뷰

G와 D의 정보 비대칭이 GAN 균형 문제에 일부 기여하고 있다는 것을 알아내고 heatmap과 D의 attention map을 통해 GAN 훈련 평형을 개선하는 EqGAN-SA를 제안했다. 주목할 점은 생성능력 개선뿐만 아니라 styleGAN3의 앨리어싱 제거 과정이 전혀 없는데도 translation equivariance가 개선되었다는 것이다.

 

Github

Youtube Demo 

 

 

 

Abstract

GAN의 적대적 훈련에서, 판별기 D가 생성된 이미지와 실제 이미지를 구별할 수 없는 특정 평형에 도달할 것으로 예상된다. 그러나 D는 거의 항상 G를 능가한다. 본 논문에서는 이러한 문제를 G와 D 사이의 정보 비대칭의 탓으로 돌린다. D는 자체적인 시각적 주의를 학습하지만, G는 특정 합성을 위해 어느 영역에 초점을 맞출지에 대한 명시적 단서를 가지고 있지 않다. 이러한 문제를 해결하기 위해, 무작위 샘플링 다단계 히트맵과 D에서 유도된 attention map을 통해 G와 D의 정보 격차를 줄인다. 광범위한 실험으로 이러한 방법이 GAN 게임을 평형에 가깝게 만들어 합성 성능을 향상시킨다는 것을 보여준다.

 

 

 

Introduction

신경망 해석 도구 GradCAM으로 중간 feature map을 시각화한다.

그림에서 보듯이, D는 학습에서 자체 시각적 attention을 가지며 G에 의해 잘 합성되지 않는 영역에 집중할 수 있다.

 

반대로 G는 공간에 대한 그 어떤 단서도 없다. 이러한 문제를 해결하기 위해 다단계 히트맵과 D에서 유도된 attention map을 활용하는 새로운 교육 방법인 EqGAN-SA (improve the Equilibrium of GAN through raising Spatial Awareness)를 제안한다.

 

EqGAN-SA는 다음과 그림과 같이 GAN 게임을 평형하게 만들며 이로 인해 합성 성능이 향상된다.

 

 

 

Analyzing GAN Equilibrium

D의 attention map은 feature map과 거의 동일한 형상을 갖고 있으며, attention map 내에서 응답이 높은 영역이 결정에 더 많은 기여를 한다.

 

또한

  • D가 실제 이미지와 생성된 이미지 모두에 대한 시각적 주의를 학습한다.
  • D의 시각적 주의는 계층적 특성을 보이며 깊어질수록 세세한 차별적 내용에 집중한다.
  • 해상도가 낮은 층에서 더 적은 local peak를 갖는다.

 

 

 

 

Improving GAN Equilibrium

Encoding Spatial Awareness in Generator

Hierarchical Heatmap Sampling

히트맵 H를 랜덤 샘플링한다.

(c는 평균=중심 지점, cov는 공분산)

 

GAN의 coarse-to-fine 학습 방법에 일치시키기 위해 가장 낮은 해상도의 히트맵에 따라 높은 해상도의 히트맵을 도출한다.

 

Heatmap Encoding

Feature 연결과 feature 정규화를 통해 G의 공간 인식을 향상시키는데에 공간 인코딩(SEL) 계층을 사용한다.

 

SPADE(Spatially-Adaptive Denormalization)에서 영감을 받은 SELnorm은 다음과 같다.

(F=feature map, H=heatmap, µ=채널별 평균, σ=채널별 표준편차, ϕ=학습 가능한 함수)

 

또한 feature 안정화를 위해 잔차 연결을 사용.

 

Aligning Spatial Awareness with Discriminator

히트맵으로 G의 공간 인식을 개선했지만, 히트맵이 임의적이기 때문에 개선이 필요하다. 이를 위해 D를 정규화기로 참여시킨다. 

 

G의 각 최적화 단계에서, GradCAM을 통해 도출한 D의 attention map과 히트맵의 거리가 최소가 되도록 추가 훈련한다.

 

히트맵과 feature map, attention map이 완벽하게 같은 수는 없기 때문에 손실이 특정 값보다 작으면 훈련에 포함하지 않는다.

 

 

 

Experiments

정성적 평가

(a) EqGAN-SA로 훈련된 모델의 샘플

(b, c) 히트맵 이동에 따른 변화

(d) 귀, 눈 등 히트맵을 훨씬 더 세부적으로 조정한다. 주목할 점은 styleGAN3에서와 같은 앨리어싱 제거 절차가 전혀 없었는데도 불구하고 equivariance 하다는 것이다!!

 

각 행 : 같은 히트맵

각 열 : 같은 잠재코드

 

Ablation

 

 

 

견고성과 일관성.

훈련 과정에서 D의 관심이 일관적이라는 것을 관찰할 수 있다.