이미지를 세 단계 표현으로 분해하여 만화화
Abstract
본 논문은 이미지 만화화에 대한 접근 방식을 제시한다. 만화 그림을 관찰함으로써 세 가지 white-box 표현(매끄러운 표면 표현, 구조 표현, 텍스처 표현)을 각각 별도로 식별할 것을 제안한다.
Introduction
다양한 만화 스타일과 사용 사례에 사용 가능한 알고리즘을 개발하기 위해서는 작업별 가정 또는 사전 지식이 필요하다. 이러한 점은 사용 사례에서 다양한 요구에 직면할 때 블랙박스 모델의 문제가 생긴다.
먼저, 이미지를 여러 표현으로 분해한다.
- 이미지의 매끄러운 표면을 나타내기 위한 표면 표현 : 이미지 I가 주어지면 텍스처 및 세부사항이 무시된 채 보존되는 가중 저주파 성분 Isf를 추출한다.
- Celluloid 만화 스타일로 global 구조 정보와 희소 컬러 블록을 효과적으로 포착하기 위한 구조 표현 : 입력 이미지에서 segmentation map을 추출한 다음 각 분할 영역에 적응 컬러 알고리즘을 적용하여 구조 표현 Ist 생성. 이 표현은 명확한 경계와 희박한 컬러 블록으로 특징지어지는 Celluloid 만화 스타일을 모방한다.
- 텍스처 표현 : 입력 이미지를 세부 사항과 가장자리를 포함하는 단일 채널 intensity map으로 변환한다. 색상과 휘도 패턴을 제외한 고주파 텍스처 세부 정보를 독립적으로 학습하도록 한다.
또한 GAN을 이용해 end-to-end로 실제 사례에서 다양한 예술적 요구를 쉽게 충족할 수 있도록 최적화한다.
본 논문의 방법으로 조화로운 색, 좋은 예술 스타일, 날카롭고 깨끗한 경계, 훨씬 적은 아티팩트로 이미지를 생성할 수 있다.
Proposed Approach
이미지는 각각의 독립 모듈을 통해 세 가지 표현으로 분해된다.
생성기 G, 모델 출력에서 추출된 표면 표현과 만화를 구별하는 것을 목표로 하는 판별기 Ds, 출력에서 추출된 텍스처 표현을 구별하는 데 사용되는 판별기 Dt가 있고 사전 훈련된 VGG 네트워크도 사용.
Learning From the Surface Representation
이미지를 매끄럽게 하고 global semantic 구조를 유지하기 위해 edge 보존 필터링에 미분 가능한 가이드 필터를 채택.
I를 입력으로 받으면 자체적으로 자신을 가이드 맵으로 사용해 텍스처 및 세부 정보가 제거된 추출된 표면 표현 Fdgf(I, I)를 반환한다. 그리고 판별자 Ds를 이용해 참조 만화 이미지와 비슷한 표면 표현을 가졌는지 판단한다.
(Ip = 입력 이미지, Is = 만화 이미지)
Learning From the Structure representation
Felzenszwalb 알고리즘을 사용하여 이미지를 분할하고 의미 정보를 도입하기 위해 selective search를 추가, 표준 superpixel 알고리즘으로 분할된 각 영역에 색상 지정.
하지만 이 과정에서 전체 대비가 낮아지고 이미지가 흐려지는 문제가 있어 아래와 같은 적응 색상 알고리즘을 제안한다.
(설명이 좀 불친절하다. 뭔 소린지 잘 모르겠음.)
구조 표현 추출 모듈 Fst에 대해 VGG를 사용하여 결과와 추출된 구조 표현 사이의 공간 제약을 적용한다.
Learning From the Textural Representation
목표인 고주파 텍스처를 유지하고 색상 및 휘도의 영향을 줄이기 위해 color shift 알고리즘 Frcs 제안.
(Y = 회색조 이미지)
표면 표현과 똑같이 GAN loss를 이용하여 학습.
Full model
Tv loss는 이미지 평활화를 위해 사용.
Content loss
추가적으로 네트워크 조정 없이 세부사항과 가장자리의 선명도를 조절할 수 있는 필터를 도입했다.
Experimental Results
'논문 리뷰 > GAN' 카테고리의 다른 글
Sketch Your Own GAN 논문 리뷰 (0) | 2022.08.13 |
---|---|
Rewriting a Deep Generative Model 논문 리뷰 (0) | 2022.08.12 |
Rewriting Geometric Rules of a GAN (GANWarping) 논문 리뷰 (0) | 2022.08.10 |
DCT-Net : Domain-Calibrated Translation for Portrait Stylization 논문 리뷰 (0) | 2022.07.09 |
StyleSpace Analysis: Disentangled Controls for StyleGAN Image Generation 논문 리뷰 (0) | 2022.07.01 |
ReStyle: A Residual-Based StyleGAN Encoder via Iterative Refinement 논문 리뷰 (0) | 2022.07.01 |