본문 바로가기

논문 리뷰

(452)
Tag2Text: Guiding Vision-Language Model via Image Tagging Detector가 아닌 tagging을 이용한 vision-language pretraining framework Github arXiv Abstract Vision-language model 모델에 이미지 태깅을 도입하는 vision-language pretraining(VLP) 프레임워크인 Tag2Text 제안 Introduction (1) Detector 기반 기존의 vision-language (V+L) task framework (2) Image tagging을 이용한 새로운 방식 자동적인 text semantic parsing을 통해 대규모 데이터 사용 가능 태그 카테고리가 단순 객체를 넘어 장면, 속성, 동작과 같이 다양하기 때문에 image-text의 더 나은 연결을 제공 Detector보..
Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection Close-set detector인 DINO를 open-set detector로 개조 GithubarXiv AbstractTransformer 기반 detector인 DINO와 grounded pre-training을 결합한 Grounding DINO 제안.  Introduction인간이 지정한 임의의 객체를 감지하는 것을 open-set object detection이라고 명명. 언어와 이미지를 모두 처리할 수 있고 대규모 데이터를 활용할 수 있는 transformer인 DINO 채택. Close-set detector를 open-set detector로 확장하는 기존 방식:Closed-set detector를 세 부분으로 나누고 세 번의 feature fusion을 수행하며 neck, head의 출력..
Matting Anything (MAM) SAM을 활용한 image matting 모델. 다양한 matting 작업 처리 가능. Github arXiv Abstract Matting Anything Model(MAM) 단일 모델로 다양한 유형의 image matting 처리 가능 SAM(Segment Anything Model)의 feature map에 경량 M2M(Mask-to-Matte) 모듈을 채택하여 alpha matte 예측 SAM을 통해 대화식으로 사용 가능 Introduction MAM은 SAM feature map과 마스크 출력을 입력으로 사용하고 대상 인스턴스의 alpha matte를 예측하기 위해 가벼운 M2M(Mask-to-Matte) 모듈을 추가했다. 서로 다른 클래스의 인스턴스를 다루는 5가지 이미지 매팅 데이터 세트의 ..
Matte Anything: Interactive Natural Image Matting with Segment Anything Models (MatAny) 매우 간편한 interactive image matting Github arXiv Abstract 추가 교육 없이 SAM(Segment Anything Model)으로 윤곽선을 예측하고 OV(openvocabulary) detector로 투명도를 예측한 뒤 alpha matte를 생성하는 interactive matting algorithm인 MatAny 제안 Introduction Trimap은 이미지를 foreground, background, unknown으로 나눈 hint map이다. 현재 SOTA 이미지 매팅 방법은 이러한 trimap이 입력으로 필요한데, 매우 좋은 성능에도 불구하고 trimap 관련 높은 인건비 때문에 주류 접근법이 되지 못했다. MatAny에서는 SAM으로 개체의 마스크를 ..
LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model LLaMA-Adapter 개선 + Multi-Modal Github arXiv Abstract LLaMA-Adapter 보강 Early fusion strategy Joint training paradigm Introduction LLaMA-Adapter : 매우 적은 피라미터로 fine-tuning 가능하지만 multi-modal 학습 안됨 MiniGPT : Multi-modal 가능하지만 무겁고 많은 양의 고품질 데이터셋 필요함 LLaMA-Adapter를 시작점으로 visual projection layer를 최적화하여 모델을 개선할 수 있다. 하지만 시각적 특징이 프롬프트를 지배하는 현상 관찰. 따라서 image-text alignment와 language instruction tuning 간의 간..
LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention LLaMA를 경량 어댑터로 fine-tuning Github arXiv Abstract LLaMA를 효율적으로 fine-tuning 하는 경량 적응 방법인 LLaMA-Adapter 제안 Introduction LLaMA-Adapter LLaMA의 상위 transformer 계층에 학습 가능한 적응 프롬프트 세트를 입력 instruct token의 접두사로 추가 초기 교육 단계에서 적응 프롬프트의 노이즈를 피하기 위해 zero-init attention 사용 본 논문의 기여 1.2M의 적은 피라미터 수 Alpaca보다 빠른 수렴 비용 각 어댑터를 유연하게 삽입하여 다양한 지식을 부여할 수 있음 Multi-modal conditioning 가능 LLaMA-Adapter Learnable Adaption Pr..
Simple and Controllable Music Generation (MusicGen) 주어진 코드북 패턴에 따라 단일 transformer로 음악 생성. Github arXiv https://twitter.com/honualx/status/1668652005487779840(신기함) 트위터에서 즐기는 Alexandre Défossez “Official MusicGen now also supports extended generation (different implem, same idea). Go to our colab to test it. And keep an eye on @camenduru for more cool stuff! Of course, I tested it with an Interstellar deep remix as lo-fi with organic samples :) twi..
High Fidelity Neural Audio Compression (EnCodec) 오디오 코덱 신경망. SoundStream 개선 버전. Github arXiv Abstract 신경망을 활용한 최첨단 실시간, 고충실도 오디오 코덱인 EnCodec 소개. Introduction 압축 모델의 주요 문제는 두 가지이다. 첫째, 모델은 일반적이고 광범위한 신호를 나타낼 수 있어야 한다. -크고 다양한 훈련 세트, 판별기 네트워크를 사용하여 해결 둘째, 컴퓨팅 시간과 크기를 효율적으로 줄여야 한다. -CPU 코어에서 실행 가능하도록 모델 제한, 잔차 벡터 양자화(SoundStream) 채택. Model Encoder & Decoder Architecture 기본적으로 아키텍처는 시퀀스 모델링을 위해 최종 Conv1D 직전에 추가한 LSTM을 제외하면 SoundStream과 동일하고 고충실도의 ..
SoundStream: An End-to-End Neural Audio Codec 오디오 코덱 신경망 Github arXiv Abstract 신경망을 통한 오디오 코덱인 SoundStream 제안. 벡터 양자화와 적대적 훈련을 통하여 고품질 오디오 콘텐츠 생성 가능. Introduction 적대적 및 재구성 손실로 end-to-end 훈련되는 신경망 오디오 코덱인 SoundStream 제안 Residual vector quantizer, quantizer dropout 기술 제안 Model Encoder architecture 나도 음향? 데이터를 잘 몰라서 직접 데이터 크기를 비교해 봤는데, 일단 인코더 입력 시 크기는 (1, 64000). (배치 크기 제외) 인코더의 각 블록을 통과한 후의 크기 1D 컨볼루션으로 연산된다. 디코더의 출력은 당연히 그 반대 또한 입력 데이터에 추가로..
Language 논문 분류 Large Language Model (LLM)SOLAR 10.7B : 매우 간단하고 효율적인 depth up-scaling 방법으로 모델 업스케일링DocLLM : LLM이 layout을 고려하여 시각적 문서를 추론할 수 있도록 함TinyLlama : LLaMA2 기반에 1T 개의 토큰으로 pretraining 된 1.1B 모델 Mistral 7B : LLaMA2 기반 모델 (Sliding window attention, Rolling buffer cache)Mixtral 8x7B : Mistral 7B + Mixture of expertsEurus : Multi-turn interaction 궤적을 수집하여 SFT, Preference Learning에 사용Phi-3 : 오직 훈련 데이터만 변경함으로써..
Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding 비디오를 이해하는 언어 모델 Github arXiv Abstract Video Q-former, Audio Q-former를 통해 비디오의 시청각 콘텐츠를 이해하는 multi-modal framework인 Video-LLaMA 제안. Related Works BLIP & BLIP-2 MiniGPT-4 ImageBind Introduction BLIP-2의 아이디어를 채택해 Video Q-former, Audio Q-former를 도입하고 multi-branch cross-model 고안. Audio-text 데이터가 존재하지 않기 때문에 대응을 위해 ImageBind를 인코더로 활용. Method Architecture Vision-Language Branch 이미지 인코더, 위치 임베딩 레이어, Q-F..
ImageBind: One Embedding Space To Bind Them All Image-paired data로 모든 양식 통합하기 Github arXiv Abstract 6가지 다른 양식에 걸쳐 joint 임베딩을 학습하는 접근 방식인 ImageBind 제안. 훈련에 모든 pair data가 필요하지 않으며 image-paired data만 있으면 충분하다. Introduction 해변의 이미지는 파도 소리, 모래의 질감, 바람을 떠올리게 하거나 시에 영감을 줄 수도 있다. 이미지의 이 binding 속성은 이미지와 관련된 모든 감각 경험과 정렬하여 시각적 기능을 학습할 수 있는 많은 소스를 제공한다. 본 논문에서는 여러 유형의 image-paired 데이터를 활용하여 단일 공유 표현 공간을 학습하는 ImageBind를 제시한다. 이미지의 binding 속성을 활용하여 각 양식의..