본문 바로가기

논문 리뷰

(452)
Rewriting a Deep Generative Model 논문 리뷰 사전 훈련된 심층 모델에서 특정 하위 집합만 변형되도록 네트워크 규칙 변경 Github Arxiv Abstract GAN과 같은 심층 생성 모델에서 네트워크가 인코딩 되는 규칙을 조작할 수 있는 방법을 소개한다. 해당 논문의 방법으로 GAN에서 특정 부분, 특정 하위 집합만을 조작할 수 있다. Introduction 심층 네트워크의 의미 및 물리적 규칙을 추가, 제거 및 변경하는 것을 목표로 하는 모델 재작성 작업을 제시한다. 모델 내에서 특정한 의미 관계를 찾고 변경하기 위해 선형 연관 메모리의 개념을 심층 생성기의 비선형 컨볼루션 레이어로 일반화하는 방법을 보여준다. 각 레이어는 숨겨진 feature에 대한 키-값 관계 세트로 잠재 규칙을 저장한다. 본 논문의 제한된 최적화는 모델의 기존 의미 관계를..
Rewriting Geometric Rules of a GAN (GANWarping) 논문 리뷰 잠재 공간 편집이 아닌 사람이 수동으로 편집한 변형을 GAN에 적용하는 방법. Github Project Page Abstract 사용자가 원하는 기하학적 변경으로 소수의 원본 모델 출력을 편집하여 주어진 모델을 "왜곡" 할 수 있도록 한다. 편집된 샘플 재구성하기 위해 단일 모델 레이어에 low-rank 업데이트를 적용하고 과적합을 방지하기 위해 스타일 믹싱을 기반으로 하는 잠재 공간 증강 방법을 제안한다. Introduction 기존의 GAN 반전과 적응 방법은 기하학적으로 왜곡된 적은 샘플만으로 GAN을 적응시키기가 어렵다. 이러한 문제를 해결하기 위해 원본 샘플과 뒤틀린 버전 간의 재구성 손실로 모델 가중치를 직접 최적화한다. 또한 스타일 믹싱 기반의 증강 체계와 low-rank 업데이트를 제안한..
Learning to Cartoonize Using White-box Cartoon Representations 논문 리뷰 이미지를 세 단계 표현으로 분해하여 만화화 Project Page Github Abstract 본 논문은 이미지 만화화에 대한 접근 방식을 제시한다. 만화 그림을 관찰함으로써 세 가지 white-box 표현(매끄러운 표면 표현, 구조 표현, 텍스처 표현)을 각각 별도로 식별할 것을 제안한다. Introduction 다양한 만화 스타일과 사용 사례에 사용 가능한 알고리즘을 개발하기 위해서는 작업별 가정 또는 사전 지식이 필요하다. 이러한 점은 사용 사례에서 다양한 요구에 직면할 때 블랙박스 모델의 문제가 생긴다. 먼저, 이미지를 여러 표현으로 분해한다. 이미지의 매끄러운 표면을 나타내기 위한 표면 표현 : 이미지 I가 주어지면 텍스처 및 세부사항이 무시된 채 보존되는 가중 저주파 성분 Isf를 추출한다. ..
More ConvNets in the 2020s : Scaling up Kernels Beyond 51 × 51 using Sparsity 논문 리뷰 커널 분해와 동적 희소 컨볼루션을 이용해 커널 크기를 51x51까지 확장 Github Abstract ViT의 발전에 맞서 최근의 몇 가지 컨볼루션 모델은 큰 커널로 반격하여 매력적인 성능과 효율성을 보여준다. 그들 중 하나인 RepLKNet은 커널 크기를 31x31까지 확장했지만, Swin Transformer와 같은 고급 ViT의 확장 추세에 비하면 성능이 포화된다. 본 논문에서는 그보다 더 큰 극한 컨볼루션 훈련을 테스트한다. 희소성을 이용해 커널을 51x51까지 확장한 순수 CNN 아키텍처인 Sparse Large Kernel Network(SLaK)를 제안한다. Introduction ViT에서 영감을 받아, 일부 최근 연구는 CNN에 큰 커널을 도입했지만 큰 커널은 학습하기가 매우 어렵다. 본..
DCT-Net : Domain-Calibrated Translation for Portrait Stylization 논문 리뷰 Cross domain translation을 full-image에서 one-path로 가능하게 한 모델 Project Page Abstract Few-shot 초상화 스타일링을 위한 새로운 이미지 변환 아키텍처인 DCT-Net(이하 DCT)을 소개한다. DCT는 제한된 스타일 예제(~100)로 높은 충실도의 콘텐츠 합성과 복잡한 장면을 처리할 수 있는 강력한 일반성을 제공한다. 또한 부분 관찰에 의해 훈련된 평가 네트워크를 통해 전신 이미지 변환을 가능하게 한다. Introduction 이미지 변환, 전송, 반전 모델의 발전에도 불구하고 제한된 일반화 능력, 도메인 간의 콘텐츠 누락 문제, 전신 이미지에 적용할 수 없는 문제 등으로 인해 어려움을 겪는다. 본 논문의 목표는 높은 컨텐츠 합성 능력, 강력..
MatteFormer : Transformer-Based Image Matting via Prior-Tokens 논문 리뷰 Trimap에서 추출한 Prior token을 이용해 ViT 기반 image matting 개선 Github Abstract 본 논문에서는 trimap 정보를 최대한 활용하는 MatteFormer라는 transformer 기반 이미지 매팅 모델을 제안한다. 먼저 각 trimap 영역의 전역적 표현인 prior 토큰을 도입하고 이 토큰을 global prior로 각 블록의 self attention에 참여한다. 인코더는 PAST(Prior-Attentive Swin Transformer) 블록을 도입한 Swin Transformer이다. Introduction 이미지는 foreground F, background B, alpha matte α로 다음과 같이 나타낼 수 있다. 이미지 매팅에서 추가 입력으로 ..
StyleSpace Analysis: Disentangled Controls for StyleGAN Image Generation 논문 리뷰 W+ 공간보다 S 공간이 훨씬 더 disentangle 한 제어를 제공한다는 것을 증명하고 S 공간에서 특정 속성을 제어하는 채널을 탐색하는 방법을 제안하였다. Github Abstract StyleSpace가 다른 중간 잠재 공간보다 훨씬 더 분리되어 있음(disentangle)을 보여준다. 뚜렷한 시각적 속성을 제어하는 스타일 채널의 대규모 컬렉션을 발견하는 방법을 설명한다. 사전 훈련된 분류기 또는 소수의 예제 이미지를 사용하여 특정 속성을 제어하는 스타일 채널을 식별하는 간단한 방법을 제안한다. StyleSpace 컨트롤을 실제 이미지 조작에 적용할 수 있음을 보여준다. Introduction 중간 잠재 공간 W, W+를 본 논문에서는 StyleSpace S 공간을 조사한다. 이후 섹션에서는 S ..
ReStyle: A Residual-Based StyleGAN Encoder via Iterative Refinement 논문 리뷰 인코더 기반 반전과 직접 최적화 반전을 결합한 반전 인코더 모델. Github Abstract 본 연구에서는 현재 반전 접근법의 한계를 인식하고 반복적인 개선 메커니즘을 도입하여 새로운 반전 체계를 제시한다. 주어진 실제 이미지의 잠재 코드를 직접 예측하는 대신 반전된 잠재 코드의 현재 추정치에 대한 잔차를 자체 수정 방식으로 예측하는 작업을 수행한다. ReStyle 인코더는 추론 시간이 거의 증가하지 않고 향상된 정확도를 달성한다. Introduction 단일 전진 pass로 잠재 코드를 추론하는 일반적인 인코더 기반 반전과 달리 반복적인 피드백 메커니즘을 도입, 인코더에 원래 입력 이미지와 함께 이전 반복의 출력을 공급하여 여러 개의 전진 pass를 사용하여 반전이 수행된다. 잠재 공간의 측면에서, ..
Cross-Domain Style Mixing for Face Cartoonization 논문 리뷰 Face style transfer에서 기존의 사전 훈련 인코더 방법의 문제점을 해결하고 더 견고하고 향상된 stylization 프레임워크 제안 Project Page Arxiv Abstract 본 논문에서는 서로 다른 두 도메인의 두 잠재 코드를 결합하는 Cross-domain Style mixing이라는 새로운 방법을 제안한다. 새로운 방법은 훈련 이미지조차 사용하지 않고 단일 생성기만을 사용하여 다양한 얼굴 추상화 수준에서 얼굴을 여러 만화 캐릭터로 효과적으로 스타일링한다. Introduction Toonify에서는 레이어 스와핑을 도입해 두 가지 스타일을 보간했다.(내가 만들었던 볼짤콘 모델과 퍼리 모델에서도 레이어 스와핑을 사용했었다.) 그러나 레이어 스와핑은 미세 표현이 힘들고 거리가 먼 도..
The ArtBench Dataset Artwork 생성 벤치마킹을 위한 새로운 데이터셋 ArtBench-10의 간략한 소개입니다. Github Abstract Artwork 생성을 벤치마킹하기 위한 균형적인 클래스, 고품질, 깔끔한 주석이 달린 표준화된 최초의 데이터셋인 ArtBench-10을 소개한다. 10개의 독특한 스타일의 예술 작품 60,000개의 이미지로 구성되어 있으며, 스타일당 5,000개의 훈련 이미지와 1,000개의 테스트 이미지를 가지고 있다. 또한 32x32, 256x256, 원본 크기로 총 3가지 버전이 있다. The ArtBench-10 Dataset Limitation of Existing Artwork Datasets 이전의 artwork 데이터셋들에는 여러가지 문제가 있었다. Long-tail 분포 이미지 품질..
Spatially-Adaptive Multilayer Selection for GAN Inversion and Editing 논문 리뷰 이미지의 가역성 맵을 예측하여 물체의 유형에 따라 각각 다른 계층에서 편집을 수행하는 SAM inversion을 제안. Project Page Spatially-Adaptive Multilayer Selection for GAN Inversion and Editing Spatially-Adaptive Multilayer Selection for GAN Inversion and Editing www.cs.cmu.edu Abstract 기존의 GAN 반전 및 편집 방법은 복잡한 장면과 개체 폐색으로 인해 종종 어려움을 겪는다. 본 논문에서는 GAN의 잠재 공간에서 이러한 복잡한 이미지를 반전하고 편집하는 새로운 방법을 제안한다. 핵심 아이디어는 이미지의 난이도에 따라 반전 프로세스를 공간적으로 적응시키면서 ..
EqGAN-SA : Improving GAN Equilibrium by Raising Spatial Awareness 논문 리뷰 G와 D의 정보 비대칭이 GAN 균형 문제에 일부 기여하고 있다는 것을 알아내고 heatmap과 D의 attention map을 통해 GAN 훈련 평형을 개선하는 EqGAN-SA를 제안했다. 주목할 점은 생성능력 개선뿐만 아니라 styleGAN3의 앨리어싱 제거 과정이 전혀 없는데도 translation equivariance가 개선되었다는 것이다. Github Youtube Demo Abstract GAN의 적대적 훈련에서, 판별기 D가 생성된 이미지와 실제 이미지를 구별할 수 없는 특정 평형에 도달할 것으로 예상된다. 그러나 D는 거의 항상 G를 능가한다. 본 논문에서는 이러한 문제를 G와 D 사이의 정보 비대칭의 탓으로 돌린다. D는 자체적인 시각적 주의를 학습하지만, G는 특정 합성을 위해 어느 ..