본문 바로가기

논문 리뷰/GAN

Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning (CAST) 논문 리뷰

Gram matrix와 같은 2차 통계에 의존하는 대신 임의의 이미지의 스타일을 직접 비교하는 새로운 대조 손실을 이용해 스타일 전송 능력을 크게 향상한 논문이다.

Github

 

 

 

 

Abstract

본 연구에서는 새로운 스타일 feature 표현 학습 방법을 사용하여 임의의 이미지 스타일 전송이라는 어려운 문제를 해결한다. 기존의 심층 신경망 기반 접근 방식은 content feature의 gram matrix와 같은 2차 통계의 지침을 통해 합리적인 결과를 달성한다. 그러나 충분한 스타일 정보를 활용하지 않아 local 왜곡 및 스타일 불일치와 같은 아티팩트가 발생한다. 이러한 문제를 해결하기 위해, 본 논문에서는 여러 스타일 간의 유사점과 차이점을 분석하고 스타일 분포를 고려하여 2차 통계 대신 이미지 feature에서 스타일 표현을 직접 배울 것을 제안한다. 구체적으로, 대조 학습을 통한 새로운 스타일 표현 학습 및 스타일 전송 방법인 Contrastive Arbitrary Style Transfer(CAST)를 제시한다. 본 논문의 프레임워크는 스타일 코드 인코딩을 위한 다층 스타일 프로젝터, 스타일 배포를 효과적으로 학습하기 위한 도메인 향상 모듈, 이미지 스타일 전송을 위한 생성 네트워크 등 세 가지 핵심 요소로 구성된다. 또한 본 논문의 접근 방식이 SOTA를 통해 얻은 것과 비교하여 훨씬 더 나은 결과를 달성한다는 것을 보여주기 위해 정성적 및 정량적 평가를 종합적으로 수행한다.

 

 

 

Introduction

2차 통계를 사용한 스타일 전송은 스타일의 특정 세부 표현을 모방하기가 어렵다.

네트워크는 스타일 자체 대신 스타일 이미지와 생성된 이미지의 2차 통계를 맞추는 방법을 학습한다. 미리 정의된 스타일 표현을 사용하는 대신 예술적 이미지에서 직접 스타일의 관계와 분포를 탐색하는 것은 가치가 있다.

 

이를 위해 대조적 학습 기반 최적화에 의한 새로운 스타일 표현으로 임의의 스타일 전송을 개선할 것을 제안한다. 핵심 통찰은, 예술적 지식이 없는 사람이 하나의 예술적 이미지만 주어진다면 스타일을 정의하는데 어려움을 겪지만, 다른 스타일 간의 차이를 식별하는 것은 비교적 쉽다는 것이다. 따라서 이미지 스타일 표현 및 스타일 전송을 위한 새로운 대조적 임의 스타일 전송(CAST) 프레임워크를 제시한다.

 

본 논문의 기여는 다음과 같다.

  • 스타일 인코딩을 위한 multi-layer style projector(MSP) 모듈과 인코더-transformer-디코더 구조를 기반으로 임의 스타일 전송을 위한 CAST 모델을 제안한다.
  • 스타일 전반의 분포를 고려한 대조적인 학습과 domain enhancement(DE)을 도입하여 기존 스타일 전송 모델이 많은 스타일 정보를 완전히 활용할 수 없는 문제를 해결한다.
  • 실험으로 본 논문의 방법이 시각적 품질 측면에서 SOTA 스타일 전송 결과를 달성한다는 것을 보여준다. 

 

 

 

 

Method

다음 그림과 같이, CAST는 3가지 주요 구성요소로 이루어져 있다.

  • 예술 이미지의 특징을 스타일 코드에 투영하도록 훈련된 multi-layer style projector(MSP) 
  • MSP와 스타일 이미지 생성의 훈련을 모두 guiding하기 위해 적용되는 대조 스타일 학습 모듈
  • 예술적 이미지 도메인의 분포를 학습하는 데 도움이 되는 domain enhancement(DE) 전략

 

이러한 구성 요소들은 스타일 표현 학습을 위한 것이므로 다양한 종류의 임의 스타일 전송 네트워크에 적용될 수 있다.

 

Multi-layer Style Projector

MSP는 feature를 별도의 잠재 스타일 공간에 투영하여 local 및 global 스타일 신호를 인코딩한다.

구체적으로, 사전 훈련된 VGG-19 모델을 30개 범주의 18,000개의 예술 이미지 모음에서 미세 조정한다. 그런 다음 M layers(ReLU1_2, ReLU2_2, ReLU3_3, ReLU4_3)를 다층 프로젝터에 대한 입력으로 사용한다.

 

다층 프로젝터는 feature의 평균 및 peak 값을 포착하기 위해 average, max 풀링을 사용하며 풀링, 컨볼루션, 여러 개의 MLP로 구성된다.

 

훈련 후 MSP는 입력 이미지를 잠재 스타일 코드 z로 인코딩할 수 있다.(즉, AdaIN의 평균과 분산을 대체할 수 있음.)

 

Contrastive Style Learning

MSP를 통해 스타일 코드를 얻을 수 있지만 ground-truth 스타일 코드가 부족하기 때문에 대조 학습을 채택한다.

 

MSP 모듈을 교육할 때 원본 이미지 I와 다양한 증강 I+는 K 차원 벡터 집합 {z}에 매핑된다.

대조적 표현은 부정적 샘플 {I-}로 간주되는 데이터 세트 내의 다른 예술적 이미지와 대조적으로 I와 I+의 상호 정보를 최대화 하며 스타일을 학습한다. 구체적으로 I, I+, I-는 z, z+, z-로 매핑되며 다음과 같은 대조 손실을 정의한다.

( · 은 dot product, τ는 temperature scaling factor)

 

MOCO를 따라 메모리 뱅크 아키텍처를 사용하여 4096개의 부정적인 사례의 대규모 사전을 유지한다.

 

또한 대조적 표현은 생성기 G가 스타일을 전송하는 데 적절한 지침을 제공할 수 있다. 스타일 전송된 content 이미지 Ics를 매핑한 z̃와 스타일 이미지 Is를 매핑한 ẑ의 대조 손실을 계산한다.

 

Domain Enhancement

네트워크가 스타일 분포를 학습할 수 있도록 적대적 손실이 있는 DE를 도입한다. 최근의 다른 스타일 전송 모델에서도 GAN을 사용했지만 이전 방법과 달리 두 개의 판별기를 사용한다. 각각의 판별기는 원본 이미지를 진짜, 스타일 전송된 이미지를 가짜로 판별하도록 훈련된다.

 

스타일 전송 과정에서 원본 이미지의 content 정보를 유지하기 위해 주기 일관성 손실을 추가한다.

 

Network Training

전체 공식은 다음과 같다.

 

 

 

Experiments

정량적 비교 통계

 

정성적 비교

(티스토리 가로 길이가 작아서 크게 보여줄 수가 없는데 CAST에서 스타일 전송의 고질적인 아티팩트도 없고 content 손실도 제일 적고 아무튼 엄청 좋아 보입니다.)

 

 

 

 

Conclusion

본 연구에서는 임의의 이미지 스타일 전송 작업을 위한 새로운 프레임워크인 CAST를 제시한다. Gram matrix 또는 deep feature의 평균/분산과 같은 2차 metric에 의존하는 대신 스타일 인코딩을 위한 MSP 모듈을 도입하여 이미지 feature를 직접 사용한다. 또한 기존의 예술 작품 컬렉션에서 사용 가능한 다중 스타일 정보를 활용하고 MSP 모듈과 생성 스타일 전송 네트워크를 훈련시키는 데 도움이 되는 대조 손실 함수를 개발하며 이미지 도메인의 분포를 효과적으로 모델링하기 위한 DE 체계를 제안한다. 광범위한 실험 결과는 CAST 방법이 SOTA 접근 방식에 비해 우수한 임의 스타일 전송 결과를 달성한다는 것을 보여준다.