본문 바로가기

논문 리뷰/Language Model

(148)
LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model LLaMA-Adapter 개선 + Multi-Modal Github arXiv Abstract LLaMA-Adapter 보강 Early fusion strategy Joint training paradigm Introduction LLaMA-Adapter : 매우 적은 피라미터로 fine-tuning 가능하지만 multi-modal 학습 안됨 MiniGPT : Multi-modal 가능하지만 무겁고 많은 양의 고품질 데이터셋 필요함 LLaMA-Adapter를 시작점으로 visual projection layer를 최적화하여 모델을 개선할 수 있다. 하지만 시각적 특징이 프롬프트를 지배하는 현상 관찰. 따라서 image-text alignment와 language instruction tuning 간의 간..
LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention LLaMA를 경량 어댑터로 fine-tuning Github arXiv Abstract LLaMA를 효율적으로 fine-tuning 하는 경량 적응 방법인 LLaMA-Adapter 제안 Introduction LLaMA-Adapter LLaMA의 상위 transformer 계층에 학습 가능한 적응 프롬프트 세트를 입력 instruct token의 접두사로 추가 초기 교육 단계에서 적응 프롬프트의 노이즈를 피하기 위해 zero-init attention 사용 본 논문의 기여 1.2M의 적은 피라미터 수 Alpaca보다 빠른 수렴 비용 각 어댑터를 유연하게 삽입하여 다양한 지식을 부여할 수 있음 Multi-modal conditioning 가능 LLaMA-Adapter Learnable Adaption Pr..
Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding 비디오를 이해하는 언어 모델 Github arXiv Abstract Video Q-former, Audio Q-former를 통해 비디오의 시청각 콘텐츠를 이해하는 multi-modal framework인 Video-LLaMA 제안. Related Works BLIP & BLIP-2 MiniGPT-4 ImageBind Introduction BLIP-2의 아이디어를 채택해 Video Q-former, Audio Q-former를 도입하고 multi-branch cross-model 고안. Audio-text 데이터가 존재하지 않기 때문에 대응을 위해 ImageBind를 인코더로 활용. Method Architecture Vision-Language Branch 이미지 인코더, 위치 임베딩 레이어, Q-F..
LoRA: Low-Rank Adaptation of Large Language Models 사전 훈련 네트워크 가중치의 rank를 분해하여 효율적인 downstream 작업 Github arXiv Abstract 사전 훈련된 모델 가중치를 동결하고 transformer architecture의 각 계층에 훈련 가능한 rank decomposition matrix를 주입하여 다운스트림 작업에서 피라미터의 수를 크게 줄이는 Low-Rank Adaptation(LoRA) 제안. Introduction LoRA는 Measuring the Intrinsic Dimension of Objective Landscapes에서 영감을 받았다. 연구진은 모델 적응 중의 가중치 변화가 낮은 intrinsic rank를 갖고 있다고 가정하고 LoRA(Low-Rank Adaptation)를 제안했다. LoRA는 위 ..