분류 전체보기 (540) 썸네일형 리스트형 Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture (I-JEPA) 데이터 증강 없이 의미론적 표현 학습하기 Github arXiv Abstract Hand-crafted data-augmentation에 의존하지 않고 의미론적인 표현을 학습하기 위한 아키텍처인 I-JEPA 소개. 단일 context block에서 다양한 target block의 표현을 예측한다는 아이디어. Introduction I-JEPA의 기본 개념은 추상 표현 공간에서 누락된 정보를 예측하는 것. I-JEPA는 추상적인 예측 대상을 사용하므로 불필요한 픽셀 수준 세부사항이 무시되어 더 의미론적인 feature를 학습한다. Method ViT 아키텍처 사용. MAE와 비슷하지만 중요한 차이점은 예측이 표현공간에서 이루어진다는 것. Targets. 입력 이미지를 target encoder fθ̄를 통.. Augmenting Language Models with Long-Term Memory (LongMem) 무제한 길이 토큰을 처리할 수 있는 LLM framework Github arXiv Abstract LLM이 무제한 길이 context를 처리할 수 있도록 확장한 LongMem 프레임워크 제안. Introduction GPT-3은 GPT-2에서 입력 토큰 수를 2k로 늘림. 하지만 dense attention으로 계산 복잡성 증가. 따라서 sparse attention을 사용하는 연구가 있었음. MemTRM에서는 메모리에서 검색된 memorized token과 in-context token 사이의 dense attention을 통해 계산. 하지만 단일 모델을 사용하여 메모리에 캐시 된 이전 표현이 현재 모델에 문제를 일으킬 수 있는 메모리 부실 문제가 있음. LongMem에서는 이전 context를 메모.. SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two Seconds 모바일 장치에서 2초 이내에 작동되는 매우 빠른 T2I 확산 모델 Project Page SnapFusion snap-research.github.io Abstract 모바일 장치에서 2초 이내에 작동되는 text-to-image 확산 모델. Efficient UNet, efficient image decoder, step distillation. Model Analysis of Stable Diffusion Prerequisites of Stable Diffusion Diffusion Model DDIM의 denoising Classifier-free guidance Latent Diffusion Model(LDM, Stable Diffusion) Benchmark and Analysis Macro P.. Progressive Distillation for Fast Sampling of Diffusion Models 점진적 증류를 통해 샘플링 시간 줄임 Github arXiv Abstract 적은 샘플링 단계를 사용할 때 향상된 안정성을 제공하는 확산 모델의 새로운 매개변수화. 결정론적 확산 샘플러를 새로운 확산 모델로 추출하는 방법. Introduction 사전 훈련된 확산 모델에 대한 N-step DDIM sampler의 동작을 샘플 품질의 저하가 거의 없는 N/2 단계의 새 모델로 증류하는 절차를 제시. 점진적 증류를 통해 샘플링 시간을 수십 배 줄이면서 샘플 품질을 유지함. Background on Diffusion Models (겁먹지 마세요. 이 부분은 잘 몰라도 됩니다.) 미분 가능한 log SNR 확산 모델의 순방향 과정 Denoising 모델을 통한 노이즈 제거 일반적인 Discrete time sa.. Recognize Anything: A Strong Image Tagging Model (RAM) 이미지 태깅을 위한 foundation model Project Page Abstract 이미지 태깅을 위한 강력한 foundation model인 RAM(Recognize Anything Model) 제안 Introduction Label System : 보편적이고 통합된 label system 구축 Dataset : Label system으로 대규모 이미지에 자동으로 주석 추가 Data Engine : 모델을 활용하여 주성을 생성, 필터링하는 데이터 엔진 구축 Model : Tag2Text와 달리 zero-shot 일반화 가능 훈련 과정 대규모 데이터셋에서 pretrain RAM 훈련 데이터 엔진을 통해 데이터셋 보강, 필터링 RAM fine-tuning RAM의 장점 강력한 zero-shot 일반화.. Tag2Text: Guiding Vision-Language Model via Image Tagging Detector가 아닌 tagging을 이용한 vision-language pretraining framework Github arXiv Abstract Vision-language model 모델에 이미지 태깅을 도입하는 vision-language pretraining(VLP) 프레임워크인 Tag2Text 제안 Introduction (1) Detector 기반 기존의 vision-language (V+L) task framework (2) Image tagging을 이용한 새로운 방식 자동적인 text semantic parsing을 통해 대규모 데이터 사용 가능 태그 카테고리가 단순 객체를 넘어 장면, 속성, 동작과 같이 다양하기 때문에 image-text의 더 나은 연결을 제공 Detector보.. Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection Close-set detector인 DINO를 open-set detector로 개조 GithubarXiv AbstractTransformer 기반 detector인 DINO와 grounded pre-training을 결합한 Grounding DINO 제안. Introduction인간이 지정한 임의의 객체를 감지하는 것을 open-set object detection이라고 명명. 언어와 이미지를 모두 처리할 수 있고 대규모 데이터를 활용할 수 있는 transformer인 DINO 채택. Close-set detector를 open-set detector로 확장하는 기존 방식:Closed-set detector를 세 부분으로 나누고 세 번의 feature fusion을 수행하며 neck, head의 출력.. Matting Anything (MAM) SAM을 활용한 image matting 모델. 다양한 matting 작업 처리 가능. Github arXiv Abstract Matting Anything Model(MAM) 단일 모델로 다양한 유형의 image matting 처리 가능 SAM(Segment Anything Model)의 feature map에 경량 M2M(Mask-to-Matte) 모듈을 채택하여 alpha matte 예측 SAM을 통해 대화식으로 사용 가능 Introduction MAM은 SAM feature map과 마스크 출력을 입력으로 사용하고 대상 인스턴스의 alpha matte를 예측하기 위해 가벼운 M2M(Mask-to-Matte) 모듈을 추가했다. 서로 다른 클래스의 인스턴스를 다루는 5가지 이미지 매팅 데이터 세트의 .. Matte Anything: Interactive Natural Image Matting with Segment Anything Models (MatAny) 매우 간편한 interactive image matting Github arXiv Abstract 추가 교육 없이 SAM(Segment Anything Model)으로 윤곽선을 예측하고 OV(openvocabulary) detector로 투명도를 예측한 뒤 alpha matte를 생성하는 interactive matting algorithm인 MatAny 제안 Introduction Trimap은 이미지를 foreground, background, unknown으로 나눈 hint map이다. 현재 SOTA 이미지 매팅 방법은 이러한 trimap이 입력으로 필요한데, 매우 좋은 성능에도 불구하고 trimap 관련 높은 인건비 때문에 주류 접근법이 되지 못했다. MatAny에서는 SAM으로 개체의 마스크를 .. LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model LLaMA-Adapter 개선 + Multi-Modal Github arXiv Abstract LLaMA-Adapter 보강 Early fusion strategy Joint training paradigm Introduction LLaMA-Adapter : 매우 적은 피라미터로 fine-tuning 가능하지만 multi-modal 학습 안됨 MiniGPT : Multi-modal 가능하지만 무겁고 많은 양의 고품질 데이터셋 필요함 LLaMA-Adapter를 시작점으로 visual projection layer를 최적화하여 모델을 개선할 수 있다. 하지만 시각적 특징이 프롬프트를 지배하는 현상 관찰. 따라서 image-text alignment와 language instruction tuning 간의 간.. LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention LLaMA를 경량 어댑터로 fine-tuning Github arXiv Abstract LLaMA를 효율적으로 fine-tuning 하는 경량 적응 방법인 LLaMA-Adapter 제안 Introduction LLaMA-Adapter LLaMA의 상위 transformer 계층에 학습 가능한 적응 프롬프트 세트를 입력 instruct token의 접두사로 추가 초기 교육 단계에서 적응 프롬프트의 노이즈를 피하기 위해 zero-init attention 사용 본 논문의 기여 1.2M의 적은 피라미터 수 Alpaca보다 빠른 수렴 비용 각 어댑터를 유연하게 삽입하여 다양한 지식을 부여할 수 있음 Multi-modal conditioning 가능 LLaMA-Adapter Learnable Adaption Pr.. Simple and Controllable Music Generation (MusicGen) 주어진 코드북 패턴에 따라 단일 transformer로 음악 생성. Github arXiv https://twitter.com/honualx/status/1668652005487779840(신기함) 트위터에서 즐기는 Alexandre Défossez “Official MusicGen now also supports extended generation (different implem, same idea). Go to our colab to test it. And keep an eye on @camenduru for more cool stuff! Of course, I tested it with an Interstellar deep remix as lo-fi with organic samples :) twi.. 이전 1 ··· 29 30 31 32 33 34 35 ··· 45 다음