본문 바로가기

논문 리뷰

(452)
StyleGAN-Human 논문 리뷰 4월 25일 공개된 StyleGAN-Human: A Data-Centric Odyssey of Human Generation Project Page StyleGAN-Human: A Data-Centric Odyssey of Human Generation Unconditional human image generation is an important task in vision and graphics, which enables various applications in the creative industry. Existing studies in this field mainly focus on "network engineering" such as designing new components and objecti..
Focal Sparse Convolutional Networks(FocalsConv) 논문 리뷰 CVPR 2022에서 발표된 논문 Focal Sparse Convolutional Networks for 3D Object Detection Gihub Paper PDF (arxiv) Abstract Point cloud나 voxel과 같은 불균일한 3D 희소 데이터는 다양한 방식으로 3D 객체 감지에 기여한다. Sparse convolutional networks (Sparse CNNs)의 기존 기본 구성 요소는 일반 또는 부분 다양체 희소 합성곱에 관계없이 모든 희소 데이터를 처리한다. 본 논문에서는 Sparse CNN의 기능을 향상시키기 위해 위치별 중요도 예측으로 feature 희소성을 학습 가능하게 만드는 것을 기반으로 하는 2개의 새로운 모듈을 소개한다. 그것은 focal sparse conv..
Temporally Efficient Vision Transformer(TeViT) 논문 리뷰 며칠 전 공개된 Temporally Efficient Vision Transformer(TeViT) Gihub Paper PDF (arxiv) Abstract 비디오 클립 내의 중요한 시간 정보를 효과적이고 효율적으로 모델링하기 위해 video instance segmentation(VIS)을 위한 Temporally Efficient Vision Transformer(TeViT)를 제안한다. 이전의 transformer-based VIS 방법과 달리, transformer backbone과 query-based video instance segmentation head를 포함하여 거의 convolution-free에 가깝다. 백본 단계에서 초기 시간 맥락 융합을 위한 거의 피라미터가 없는 messeng..
Neighborhood Attention Transformer (NAT)논문 리뷰 4월 14일 공개된 Neighborhood Attention Transformer Github Paper PDF (arxiv) Abstract 이미지 분류와 다운스트림 작업 모두에서 잘 작동하는 효율적이고 정확하며 확장 가능한 계층적 transformer인 NAT(Neighborhood Attention Transformer)를 제시한다. 각 쿼리에 대한 수신 필드를 가장 가까운 인접 픽셀로 현지화하는 간단하고 유연한 attention 메커니즘인 NA(Neighborhood Attention)를 기반으로 한다. 또한 FLOPs와 메모리 사용량은 swin transformer의 shifted window attention과 동일하지만 제약은 적으며 NA에는 국소 유도 편향이 포함되어 있어 픽셀 이동과 같은..
Masked Siamese Networks 논문 리뷰 며칠 전 공개된 Masked siamese network Github Paper PDF(arxiv) Abstract 이미지 표현을 학습하기 위한 자체 지도 학습(Self-Supervised Learning) 프레임워크인 Masked Siamese networks(MSN)를 제안한다. 본 논문의 접근 방식은 무작위로 마스크된 패치를 포함하는 이미지 뷰의 표현을 마스크되지 않은 원래 이미지의 표현과 일치시킨다. 이러한 자체 감독 사전 훈련 전략은 마스크되지 않은 패치만 네트워크에서 처리되기 때문에 ViT(Vision Transformer)에 적용할 때 특히 확장 가능하다. 결과적으로 MSN은 joint-embedding 아키텍처의 확장성을 향상시키는 동시에 로우샷 이미지 분류에서 경쟁적으로 수행하는 높은 의..
DualStyleGAN 논문 리뷰 공개된지 며칠도 되지 않은 DualStyleGAN Website Github Paper PDF dualstyle이라는 이름에 걸맞게 기존의 stylegan2에서 새로운 네트워크를 추가해 한 쌍의 스타일 네트워크(매핑)를 사용하며, 적은 데이터로도 다른 모델들과 확실히 비교되는 좋은 성능을 내는 것을 볼 수 있다. Introduction 이 연구에서는 예시 기반 초상화 스타일 전송에 초점을 맞췄다. 기존의 모델 fine-tuning 방법도 적은 데이터와 조금의 학습시간 만으로도 충분한 성능을 보여주었지만 목표 데이터셋의 전체적인 특징만을 학습하고 특정 예제에 대한 스타일 전송은 수행할 수 없었다. fine-tuning은 기존 네트워크의 도메인이 목표 도메인의 가장 비슷한 이미지에 매핑되는 형태로 학습하는데..
Alias-Free GAN (StyleGAN3) 리뷰 - Architecture 지난 리뷰 StyleGAN3 - 개념편 에서 이어집니다. 지난 리뷰를 대충이라도 읽고 나서 이번 리뷰를 보는 걸 권장합니다. translation equivariance EQ-T, rotation equivariance EQ-R은 PSNR와 유사한 metric으로 평가된다. PSNR Imax는 이미지의 최대범위를 의미한다. 논문에선 -1 ~ +1 이므로 2. z0은 G의 시작점인 상수 Z0을 연속표현으로 변환한 것. g는 generator, tx는 translation 함수, w는 네트워크의 가중치, c는 각 채널, v는 픽셀 공간, p는 각 픽셀을 나타낸다. 분모인 g(t(z))와 t(g(z))의 차이가 적을수록 EQ-T가 높아진다. 이제부터 metric을 이용해 각각의 구성요소에 대해 알아볼 것이다...
Alias-Free GAN (StyleGAN3) 리뷰 - 개념 https://nvlabs.github.io/stylegan3/ Alias-Free Generative Adversarial Networks (StyleGAN3) We eliminate “texture sticking” in GANs through a comprehensive overhaul of all signal processing aspects of the generator, paving the way for better synthesis of video and animation. nvlabs.github.io 논문 2챕터인 Equivariance via continuous signal interpretation 까지만(3챕터는 실제 구현 디테일에 대한 내용입니다.), 수학은 최대한 빼고 개념 위주..