논문 리뷰/Vision Transformer (64) 썸네일형 리스트형 EVA-CLIP: Improved Training Techniques for CLIP at Scale EVA에서 훈련 효율성을 주로 개선하여 최대한 큰 배치에서 많이 훈련할 수 있도록 함 Foundation Model이라 그런 건지 각 샘플의 정확성?을 희생하고 배치를 최대한으로 늘렸더니 성능이 좋아짐. 사실 희생이라기도 뭐한게 결과적으로 과적합을 줄여주기도 하니까... 그럼 무조건 이득인데? [Github] [arXiv](Current version v1) [EVA-01, EVA-02] Abstract CLIP 훈련의 효율성과 효과를 획기적으로 향상하는 일련의 모델인 EVA-CLIP 제안. Introduction CLIP은 강력한 vision-language foundation model이지만 높은 훈련 비용과 확장 시 훈련 불안정성 문제가 있다. 본 논문에서는 pre-training EVA 표현으로 .. EVA-02: A Visual Representation for Neon Genesis Architecture 개선, EVA-01의 visual feature space 계승 [Github] [arXiv](Current version v2) [EVA-01] Abstract MIM(Masked Image Modeling)을 통해 language-aligned vision feature를 재구성하도록 사전 훈련된 차세대 Transformer 기반 시각적 표현인 EVA-02 출시. Introduction MIM pre-training을 통해 CLIP의 시각적 표현과 적당한 모델 크기를 갖춘 강력하게 최적화된 ViT 시리즈인 EVA-02 제시. EVA-02 시리즈는 6M부터 304M까지 다양한 모델 크기가 포함되어 있으며 다운스트림 작업에 탁월한 성능을 보여줌. Approach Architectu.. EVA: Exploring the Limits of Masked Visual Representation Learning at Scale CLIP의 시각적 표현을 10억 개의 피라미터를 가진 ViT 모델로 scale-up 하는 MIM pre-training 작업 [Github] [arXiv](Current version v2) Abstract EVA는 마스크 된 vision feature를 재구성하도록 사전 훈련된 바닐라 ViT 모델이다. EVA는 다양한 다운스트림 작업에 적용할 수 있다. Introduction 수천만 개의 non-label 데이터와 10억 개의 매개변수 규모에서 대규모 비전 표현 학습에 적합한 MIM(Masked Image Modeling) pretext 작업을 탐색한다. 연구진은 경험적으로 단순히 이미지-텍스트 정렬된 vision feature(CLIP)를 예측 대상으로 사용하는 것이 다운스트림 작업에서 좋은 성능을 .. Semantic-SAM: Segment and Recognize Anything at Any Granularity [Github] [arXiv](Current version v1) Abstract 사용자가 원하는 level로 무엇이든 분할하고 인식할 수 있는 범용 이미지 분할 모델인 Semantic-SAM 소개. 이를 달성하기 위한 다중 선택 학습 방식은 다양한 segmentation dataset에 대해 공동으로 훈련하려는 최초의 시도이다. Introduction 범용 이미지 분할 모델의 주요 장애물: Model Architecture: 단일 입력 - 단일 출력 파이프라인 Training Data: 의미 인식, 세분성(granularity) 인식을 모두 갖춘 데이터셋이 없음 Semantic-SAM에서는 한 번의 클릭으로 여러 세분성을 예측. 이러한 기능은 다중 선택 학습 설계(multi-choice learning.. ProPainter: Improving Propagation and Transformer for Video Inpainting Flow-guided video inpainting 방법론 총집합 + dual-domain propagation + mask-guided sparse transformer [Project Page] [Github] [arXiv]AbstractVideo Inpainting 프레임워크 PropainterDual-domain propagationMask-guided sparse video Transformer Introduction이미지 기반 전파와 feature 기반 전파의 장점을 결합하기 위한 dual-domain propagationCPU가 아닌 GPU에서 전역 이미지 전파 수행Flow-based deformable alignment를 활용한 향상된 feature 전파효율적인 네트워크를 통해 SOTA보다.. Flow-Guided Transformer for Video Inpainting (FGT) 시간적, 공간적 transformer를 이용한 flow-guided video inpainting [Github] [arXiv], [Supplementary] Abstract Flow-guided Transformer 제안 Introduction FGT는 2 part로 구성: Flow completion network Flow-guided transformer Flow completion network : 시공간적으로 분리된 P3D block을 U-Net에 통합. Edge loss 도입. Flow-guided transformer : Spatial, temporal attention 분리 Optical flow는 spatial transformer에서만 사용 Temporal attention은 시공간적으.. FuseFormer: Fusing Fine-Grained Information in Transformers for Video Inpainting Video inpainting을 위한 soft split, soft composition [arXiv] [Github] Abstract Soft Split 및 Soft Composition 작업을 기반으로 하는 video inpainting 용 Transformer 모델인 FuseFormer 제안 Introduction Vision Transformer(ViT) baseline + 여러 프레임에서 작동하도록 수정 고해상도 프레임들로 인한 계산 부담 완화를 위해 transformer block 전후에 가벼운 convolution 사용 Transformer의 패치 단위 연산으로 인해 sub-token level feature 간의 직접적인 상호작용이 부족하다. 따라서 이를 해결하기 위해 SS(Soft Spl.. StyleDrop: Text-to-Image Generation in Any Style Style transfer with adapter Github arXiv Abstract T2I 모델을 이용하여 특정 스타일을 충실히 따르는 이미지 합성을 가능하게 하는 방법인 StyleDrop 소개. 극소수의 매개변수만을 fine-tuning 하고 반복 훈련을 통해 품질을 개선함으로써 새로운 스타일을 효율적으로 학습. Introduction Transformer-based T2I model : Muse Adapter tuning : adapter 형식의 적은 추가 피라미터 Iterative training with feedback : 과적합 완화, 성능 향상 StyleDrop Preliminary: Muse Muse의 구성요소: Text encoder T, Visual token logits를 생성하는.. Fast Segment Anything (FastSAM) SAM의 CNN version. 매우 빠름. Github arXiv Abstract SAM(Segment Anything Model)의 작업을 CNN 탐지기로 수행. 훨씬 적은 데이터셋과 빠른 속도로 SAM과 동일한 성능. Preliminary YOLO v1~v8 FPN(Feature Pyramid Networks) YOLACT(간단한 설명, 자세한) SAM(Segment Anything Model) Introduction SAM은 ViT 때문에 계산 리소스 부담이 심함. FastSAM에서는 segment 작업을 CNN 탐지기에 의한 all-instance segmentation과 prompt-guided selection 단계로 나눈다. SA-1B 데이터셋의 2% 만으로 훈련하여 기존과 비슷한 성능을 .. Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture (I-JEPA) 데이터 증강 없이 의미론적 표현 학습하기 Github arXiv Abstract Hand-crafted data-augmentation에 의존하지 않고 의미론적인 표현을 학습하기 위한 아키텍처인 I-JEPA 소개. 단일 context block에서 다양한 target block의 표현을 예측한다는 아이디어. Introduction I-JEPA의 기본 개념은 추상 표현 공간에서 누락된 정보를 예측하는 것. I-JEPA는 추상적인 예측 대상을 사용하므로 불필요한 픽셀 수준 세부사항이 무시되어 더 의미론적인 feature를 학습한다. Method ViT 아키텍처 사용. MAE와 비슷하지만 중요한 차이점은 예측이 표현공간에서 이루어진다는 것. Targets. 입력 이미지를 target encoder fθ̄를 통.. Recognize Anything: A Strong Image Tagging Model (RAM) 이미지 태깅을 위한 foundation model Project Page Abstract 이미지 태깅을 위한 강력한 foundation model인 RAM(Recognize Anything Model) 제안 Introduction Label System : 보편적이고 통합된 label system 구축 Dataset : Label system으로 대규모 이미지에 자동으로 주석 추가 Data Engine : 모델을 활용하여 주성을 생성, 필터링하는 데이터 엔진 구축 Model : Tag2Text와 달리 zero-shot 일반화 가능 훈련 과정 대규모 데이터셋에서 pretrain RAM 훈련 데이터 엔진을 통해 데이터셋 보강, 필터링 RAM fine-tuning RAM의 장점 강력한 zero-shot 일반화.. Tag2Text: Guiding Vision-Language Model via Image Tagging Detector가 아닌 tagging을 이용한 vision-language pretraining framework Github arXiv Abstract Vision-language model 모델에 이미지 태깅을 도입하는 vision-language pretraining(VLP) 프레임워크인 Tag2Text 제안 Introduction (1) Detector 기반 기존의 vision-language (V+L) task framework (2) Image tagging을 이용한 새로운 방식 자동적인 text semantic parsing을 통해 대규모 데이터 사용 가능 태그 카테고리가 단순 객체를 넘어 장면, 속성, 동작과 같이 다양하기 때문에 image-text의 더 나은 연결을 제공 Detector보.. 이전 1 2 3 4 5 6 다음