본문 바로가기

전체 글

(528)
Vision Transformer Adapter for Dense Predictions 논문 리뷰 현재 semantic segmentation의 여러 벤치마크에서 SOTA를 차지하고 있는 ViT-Adapter Github GitHub - czczup/ViT-Adapter: Vision Transformer Adapter for Dense Predictions Vision Transformer Adapter for Dense Predictions. Contribute to czczup/ViT-Adapter development by creating an account on GitHub. github.com Abstract ViT를 위한 간단하지만 강력한 어댑터를 조사한다. 비전별 유도 편향을 아키텍처에 도입하는 최근의 시각적 transformer와 달리 ViT는 이미지의 사전 정보가 부족하여 dense..
Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning (CAST) 논문 리뷰 Gram matrix와 같은 2차 통계에 의존하는 대신 임의의 이미지의 스타일을 직접 비교하는 새로운 대조 손실을 이용해 스타일 전송 능력을 크게 향상한 논문이다. Github Abstract 본 연구에서는 새로운 스타일 feature 표현 학습 방법을 사용하여 임의의 이미지 스타일 전송이라는 어려운 문제를 해결한다. 기존의 심층 신경망 기반 접근 방식은 content feature의 gram matrix와 같은 2차 통계의 지침을 통해 합리적인 결과를 달성한다. 그러나 충분한 스타일 정보를 활용하지 않아 local 왜곡 및 스타일 불일치와 같은 아티팩트가 발생한다. 이러한 문제를 해결하기 위해, 본 논문에서는 여러 스타일 간의 유사점과 차이점을 분석하고 스타일 분포를 고려하여 2차 통계 대신 이미지 f..
ASSET : Autoregressive Semantic Scene Editing with Transformers at High Resolutions 논문 리뷰 ASSET은 Transformer를 이용한 고해상도 semantic 분할 편집 아키텍처이다. NLP의 기법들을 차용했다. Project Page Creative and Descriptive Paper Title. Paper description. people.cs.umass.edu Abstract Semantic 분할 맵에서 사용자의 편집에 따라 입력 고해상도 이미지를 자동으로 수정하기 위한 신경 아키텍처인 ASSET을 제시한다. ASSET은 새로운 attention 메커니즘을 가진 transformer를 기반으로 한다. 핵심 아이디어는 낮은 해상도에서 추출된 고밀도 attention에 의해 안내되어 높은 해상도에서의 attention matrix를 희소화 하는 것이다. 이전의 attention 메커니즘..
Uniform Masking: Enabling MAE Pre-training for Pyramid-based Vision Transformers with Locality (UM-MAE)논문 리뷰 5월 23일 공개된 본 논문은 local window를 사용하는 계층적 ViT에서도 MAE 사전 훈련 방법을 적용할 수 있게 한 논문이다. Github GitHub - implus/UM-MAE: Official Codes for "Uniform Masking: Enabling MAE Pre-training for Pyramid-based Vision Transformers wit Official Codes for "Uniform Masking: Enabling MAE Pre-training for Pyramid-based Vision Transformers with Locality" - GitHub - implus/UM-MAE: Official Codes for "Uniform Masking: Ena....
When does dough become a bagel? Analyzing the remaining mistakes on ImageNet 논문 리뷰 5월 9일 공개된 When does dough become a bagel? Analyzing the remaining mistakes on ImageNet 논문은 ImageNet의 오류를 분석한 논문이다. Paper(arxiv) (다 쓰고 보니까 mistake와 error가 거의 구분이 없는데, 논문에서도 딱히 기준은 없는지 너무 중구난방으로 써서 잘 모르겠고, 대부분은 논문의 표기를 따랐음.) Abstract 컴퓨터 비전에서 가장 많이 벤치마킹된 데이터 세트 중 하나인 ImageNet에서 오류의 long-tail에 대한 통찰력을 제공하기 위해 일부 상위 모델이 저지르는 실수를 수동으로 검토하고 분류한다. 본 연구에서는 ImageNet의 multi-label 하위 집합 평가에 중점을 두는데, 여기서 SO..
StyleGAN-XL: Scaling StyleGAN to Large Diverse Datasets 논문 리뷰 2월 공개된 StyleGAN-XL는 현재 이미지 생성 부분의 ImageNet의 모든 size를 포함해 많은 데이터셋에서 SOTA를 차지하고 있다. StyleGAN-XL은 Nvidia에서 공개한 정식 StyleGAN 시리즈는 아니고, Projected GAN 연구에 참여했던 Axel Sauer가 다른 사람들과 함께 Projected GAN의 아이디어를 StyleGAN3에 특화시킨 모델이다. Project Page stylegan-xl Scaling StyleGAN to Large Diverse Datasets sites.google.com Abstract StyleGAN은 제어 가능성을 위해 설계되었기 때문에 ImageNet과 같은 대규모 비정형 데이터 세트에서 성능이 심각하게 저하된다. 대조적으로, 연구..
Projected GANs Converge Faster 논문 리뷰 이번에 리뷰할 논문은 2021년 11월 공개된 Projected GAN 논문이다. Projected GAN은 딥린이 시절 써본 적이 있는 모델이고 내 블로그의 딥러닝-Projected GAN 탭에서 그 기록을 볼 수 있다(딥러닝 잘 모를 때의 단순 기록이라 별로 의미 있지는 않음). 특히, Projected-FastGAN은 진짜 굉장히 빨리 수렴한다. 근데 사실 장기적인 모델 사용의 관점에서는 StyleGAN 백본 쪽이 더 좋다. FastGAN 자체가 훈련 속도와 데이터 효율성에 중점을 둔 모델이기 때문이다. 이후 StyleGAN-XL 모델에 영향을 주었다. Project Page Github (아랫줄이 생성된 이미지) Abstract GAN(Generative Adversarial Network)은 고..
FastGAN : Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image Synthesis 논문 리뷰 FastGAN은 2021년 1월에 나온 논문인데 내가 한동안 써봤던 Projected GAN에서 기본 설정이었던 모델이었다. 그때는 FastGAN 논문도 안 읽어보고 그냥 썼는데 최신 논문 중에 내가 좋아하는 생성 모델은 별로 없고 딱히 재밌어 보이는 것도 없어서 한 번 정독해 보기로 했다. 그리고 나중에 StyleGAN-XL 논문도 리뷰할 예정인데 거기서 Projected GAN을 사용했기 때문에 Projected GAN 논문을 리뷰할 예정이고 그러면 또 거기서도 FastGAN이 언급되니까... 아무튼 FastGAN-Projected GAN-StyleGAN XL 순으로 논문 리뷰를 할 예정이다. FastGAN Github Paper(arxiv) Abstract GAN을 훈련하려면 일반적으로 일반적으로 ..
ConvMAE : Masked Convolution Meets Masked Autoencoders 논문 리뷰 5월 8일 공개된 ConvMAE: Masked Convolution Meets MaskedAutoencoders Github Paper (arxiv) Abstract Vision Transformer(ViT)는 다양한 비전 작업을 위해 널리 채택되었다. Feature 사전 훈련 및 multi-scale hybrid convolution-transformer 아키텍처를 위한 Masked auto-encoding은 ViT의 잠재력을 더욱 발휘하여 다양한 작업에서 최첨단 성능을 이끌어낼 수 있다. 본 논문에서 소개할 ConvMAE 프레임워크는 multi-scale hybrid convolution-transformer가 마스크 오토인코딩 체계를 통해 보다 차별적인 표현을 학습할 수 있음을 보여준다. 그러나 원..
Activating More Pixels in Image Super-Resolution Transformer (HAT) 논문 리뷰 5월 9일 공개된 Activating More Pixels in Image Super-Resolution Transformer Github Paper (arxiv) Abstract 트랜스포머 기반 방법은 이미지 초해상도와 같은 저수준의 비전 작업에서 인상적인 성능을 보여주었다. 그러나 이러한 네트워크는 속성 분석을 통해 제한된 공간 범위의 입력 정보만 활용할 수 있다는 것을 발견했다. 이는 트랜스포머의 잠재력이 기존 네트워크에서 여전히 충분히 활용되지 못하고 있음을 시사한다. 재구성을 위해 더 많은 입력 픽셀을 활성화하기 위해 새로운 Hybrid Attention Transformer(HAT)를 제안한다. 그것은 channel attention과 self attention을 결합하여 그들의 보완적 장점을..
Thin-Plate Spline Motion Model for Image Animation (TPS) 논문 리뷰 3월 27일 공개된 Thin-Plate Spline Motion Model for Image Animation Github Arxiv Abstract 최근의 연구는 사전 지식을 사용하지 않고 비지도 방법을 통해 임의의 개체에 대해 모션 전송을 수행하려고 시도한다. 그러나 소스와 주행(=driving) 이미지의 객체 사이에 큰 포즈 간격이 있을 때의 비지도 방법은 현재 여전히 중요한 과제로 남아 있다. 본 논문에서는 이러한 문제를 극복하기 위해 새로운 end-to-end 비지도 모션 전송 프레임워크를 제안한다. 보다 유연한 optical flow를 생성하기 위해 thin-plate spline 모션 추정을 제안하는데, 이는 소스 이미지의 feature 맵을 주행 이미지의 feature 도메인으로 왜곡시킨다..
Neural 3D Scene Reconstruction with the Manhattan-world Assumption 논문 리뷰 5월 5일 공개된 Neural 3D Scene Reconstruction with the Manhattan-world Assumption Project Page 3D 복원 분야는 익숙하지 않아 요약할 수가 없어서 글이 좀 길 수 있습니다... Abstract 이 논문은 멀티 뷰 이미지에서 3D 실내 장면(=Scene)을 재구성하는 문제를 다룬다. 이전의 많은 작품들은 질감(=texture)이 있는 물체에서 인상적인 재구성 결과를 보여주었지만, 여전히 실내 장면에서 흔히 볼 수 있는 질감이 낮은 평면 영역을 다루는 데 어려움을 겪고 있다. 이 문제를 해결하기 위한 접근법은 멀티뷰 스테레오 기반 방법의 깊이 맵 추정에 평면 제약 조건을 통합하는 것이지만, 뷰별 평면 추정과 깊이 최적화는 효율성과 멀티뷰 일관..