본문 바로가기

논문 리뷰/GAN

(20)
EqGAN-SA : Improving GAN Equilibrium by Raising Spatial Awareness 논문 리뷰 G와 D의 정보 비대칭이 GAN 균형 문제에 일부 기여하고 있다는 것을 알아내고 heatmap과 D의 attention map을 통해 GAN 훈련 평형을 개선하는 EqGAN-SA를 제안했다. 주목할 점은 생성능력 개선뿐만 아니라 styleGAN3의 앨리어싱 제거 과정이 전혀 없는데도 translation equivariance가 개선되었다는 것이다. Github Youtube Demo Abstract GAN의 적대적 훈련에서, 판별기 D가 생성된 이미지와 실제 이미지를 구별할 수 없는 특정 평형에 도달할 것으로 예상된다. 그러나 D는 거의 항상 G를 능가한다. 본 논문에서는 이러한 문제를 G와 D 사이의 정보 비대칭의 탓으로 돌린다. D는 자체적인 시각적 주의를 학습하지만, G는 특정 합성을 위해 어느 ..
Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning (CAST) 논문 리뷰 Gram matrix와 같은 2차 통계에 의존하는 대신 임의의 이미지의 스타일을 직접 비교하는 새로운 대조 손실을 이용해 스타일 전송 능력을 크게 향상한 논문이다. Github Abstract 본 연구에서는 새로운 스타일 feature 표현 학습 방법을 사용하여 임의의 이미지 스타일 전송이라는 어려운 문제를 해결한다. 기존의 심층 신경망 기반 접근 방식은 content feature의 gram matrix와 같은 2차 통계의 지침을 통해 합리적인 결과를 달성한다. 그러나 충분한 스타일 정보를 활용하지 않아 local 왜곡 및 스타일 불일치와 같은 아티팩트가 발생한다. 이러한 문제를 해결하기 위해, 본 논문에서는 여러 스타일 간의 유사점과 차이점을 분석하고 스타일 분포를 고려하여 2차 통계 대신 이미지 f..
StyleGAN-XL: Scaling StyleGAN to Large Diverse Datasets 논문 리뷰 2월 공개된 StyleGAN-XL는 현재 이미지 생성 부분의 ImageNet의 모든 size를 포함해 많은 데이터셋에서 SOTA를 차지하고 있다. StyleGAN-XL은 Nvidia에서 공개한 정식 StyleGAN 시리즈는 아니고, Projected GAN 연구에 참여했던 Axel Sauer가 다른 사람들과 함께 Projected GAN의 아이디어를 StyleGAN3에 특화시킨 모델이다. Project Page stylegan-xl Scaling StyleGAN to Large Diverse Datasets sites.google.com Abstract StyleGAN은 제어 가능성을 위해 설계되었기 때문에 ImageNet과 같은 대규모 비정형 데이터 세트에서 성능이 심각하게 저하된다. 대조적으로, 연구..
Projected GANs Converge Faster 논문 리뷰 이번에 리뷰할 논문은 2021년 11월 공개된 Projected GAN 논문이다. Projected GAN은 딥린이 시절 써본 적이 있는 모델이고 내 블로그의 딥러닝-Projected GAN 탭에서 그 기록을 볼 수 있다(딥러닝 잘 모를 때의 단순 기록이라 별로 의미 있지는 않음). 특히, Projected-FastGAN은 진짜 굉장히 빨리 수렴한다. 근데 사실 장기적인 모델 사용의 관점에서는 StyleGAN 백본 쪽이 더 좋다. FastGAN 자체가 훈련 속도와 데이터 효율성에 중점을 둔 모델이기 때문이다. 이후 StyleGAN-XL 모델에 영향을 주었다. Project Page Github (아랫줄이 생성된 이미지) Abstract GAN(Generative Adversarial Network)은 고..
FastGAN : Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image Synthesis 논문 리뷰 FastGAN은 2021년 1월에 나온 논문인데 내가 한동안 써봤던 Projected GAN에서 기본 설정이었던 모델이었다. 그때는 FastGAN 논문도 안 읽어보고 그냥 썼는데 최신 논문 중에 내가 좋아하는 생성 모델은 별로 없고 딱히 재밌어 보이는 것도 없어서 한 번 정독해 보기로 했다. 그리고 나중에 StyleGAN-XL 논문도 리뷰할 예정인데 거기서 Projected GAN을 사용했기 때문에 Projected GAN 논문을 리뷰할 예정이고 그러면 또 거기서도 FastGAN이 언급되니까... 아무튼 FastGAN-Projected GAN-StyleGAN XL 순으로 논문 리뷰를 할 예정이다. FastGAN Github Paper(arxiv) Abstract GAN을 훈련하려면 일반적으로 일반적으로 ..
DualStyleGAN 논문 리뷰 공개된지 며칠도 되지 않은 DualStyleGAN Website Github Paper PDF dualstyle이라는 이름에 걸맞게 기존의 stylegan2에서 새로운 네트워크를 추가해 한 쌍의 스타일 네트워크(매핑)를 사용하며, 적은 데이터로도 다른 모델들과 확실히 비교되는 좋은 성능을 내는 것을 볼 수 있다. Introduction 이 연구에서는 예시 기반 초상화 스타일 전송에 초점을 맞췄다. 기존의 모델 fine-tuning 방법도 적은 데이터와 조금의 학습시간 만으로도 충분한 성능을 보여주었지만 목표 데이터셋의 전체적인 특징만을 학습하고 특정 예제에 대한 스타일 전송은 수행할 수 없었다. fine-tuning은 기존 네트워크의 도메인이 목표 도메인의 가장 비슷한 이미지에 매핑되는 형태로 학습하는데..
Alias-Free GAN (StyleGAN3) 리뷰 - Architecture 지난 리뷰 StyleGAN3 - 개념편 에서 이어집니다. 지난 리뷰를 대충이라도 읽고 나서 이번 리뷰를 보는 걸 권장합니다. translation equivariance EQ-T, rotation equivariance EQ-R은 PSNR와 유사한 metric으로 평가된다. PSNR Imax는 이미지의 최대범위를 의미한다. 논문에선 -1 ~ +1 이므로 2. z0은 G의 시작점인 상수 Z0을 연속표현으로 변환한 것. g는 generator, tx는 translation 함수, w는 네트워크의 가중치, c는 각 채널, v는 픽셀 공간, p는 각 픽셀을 나타낸다. 분모인 g(t(z))와 t(g(z))의 차이가 적을수록 EQ-T가 높아진다. 이제부터 metric을 이용해 각각의 구성요소에 대해 알아볼 것이다...
Alias-Free GAN (StyleGAN3) 리뷰 - 개념 https://nvlabs.github.io/stylegan3/ Alias-Free Generative Adversarial Networks (StyleGAN3) We eliminate “texture sticking” in GANs through a comprehensive overhaul of all signal processing aspects of the generator, paving the way for better synthesis of video and animation. nvlabs.github.io 논문 2챕터인 Equivariance via continuous signal interpretation 까지만(3챕터는 실제 구현 디테일에 대한 내용입니다.), 수학은 최대한 빼고 개념 위주..