본문 바로가기

논문 리뷰

(451)
Jamba: A Hybrid Transformer-Mamba Language Model Abstract Transformer + Mamba + MoE [AI21 labs Blog] [arXiv](2024/03/28 version v1) 이거 완전 혁명인 거 같다;; Positional encoding도 필요 없고 속도나 메모리면에서 훨씬 효율적이면서도 transformer랑 성능 비슷함;; Introduction Transformer의 단점: 높은 메모리, 컴퓨팅 비용 단일 요약 상태가 없다. (항상 시퀀스로 존재한다.) Mamba는 Transformer보다 성능은 뒤처지지만 더 효율적이고 장거리 모델링에 적합하다. Jamba에는 MoE도 포함된다. Model Architecture Jamba block은 number of layers (default l = 8) ratio of atten..
sDPO: Don't Use Your Data All at Once Abstract Dataset을 분할하여 단계적으로 DPO 수행 [arXiv](2024/03/28 version v1) Stepwise DPO sDPO의 아이디어는 매우 단순하다. 데이터셋을 하위 집합으로 분할하여 단계적으로 DPO를 수행한다. 참조 모델의 로그 확률 계산은 DPO를 수행하기 위해 필요하다. 참조 모델은 목표 모델의 하한으로 작용하며, 이 하한을 점점 높임으로써 최종 모델의 성능을 향상할 수 있다는 것이다. 동일한 데이터셋으로 여러 번 학습하는 것과 뭐가 다르지? 라고 생각할 수 있지만 논문에 언급되어 있는 것처럼 쉬운 작업부터 시작해서 어려운 작업까지 단계적인 커리큘럼을 사용하면 복잡한 문제에 더 잘 적응할 수 있을 것 같긴 하다. 실험에서도 정량적으로 증명했다. Experiments ..
Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models Abstract 고해상도 이미지에 대한 추가 vision encoder를 통해 이미지 이해를 향상한 Mini-Gemini [Project Page] [Github] [arXiv](2024/03/27 version v1) Mini-Gemini Dual Vision Encoders LR encoder는 전통적으로 사용되는 CLIP-ViT, HR encoder는 CNN 기반 인코더인 ConvNeXt. Patch Info Mining (a) LR, HR 임베딩 간의 cross-attention. (b) LR 이미지를 업스케일하여 visual token의 수를 N → 5N으로 증강할 수 있다. 필요시 HR 이미지 또한 증강 가능. Text and Image Generation Visual token과 text t..
ViTAR: Vision Transformer with Any Resolution Abstract Grid Attention, Fuzzy PE를 통해 낮은 비용으로 다양한 해상도의 이미지를 처리하는 Vision Transformer with Any Resolution (ViTAR) 제안 [arXiv](2024/03/28 version v2) Methods Adaptive Token Merger (ATM) 입력을 일정한 크기의 grid로 나누고 그리드 내 평균 토큰을 Q, 나머지를 K, V로 attention을 수행한 뒤 FFN을 통과한다. 동일한 가중치를 가진 ATM block을 여러 번 반복하여 목표 해상도 Gh × Gw 까지 줄인다. 가장자리의 grid에 패딩 토큰만 존재하는 경우를 방지하기 위해 가장자리 근처의 각 grid에 패딩을 적절하게 배치하는 grid padding을 사용..
Implicit Style-Content Separation using B-LoRA Abstract 두 개의 특정 블록의 LoRA 가중치를 학습하여 암시적으로 content와 style을 분리하는 B-LoRA 제안 [Project Page] [Github] [arXiv](2024/03/21 version v1) Method SDXL Architecture Analysis SDXL의 각 block에 다른 prompt를 주입하여 영향을 분석했다. 2, 4 block은 content를, 5 block은 색상을 주로 결정하는 것으로 나타났다. LoRA-Based Separation with B-LoRA 실험 결과 2 block 보다 4 block이 content를 더 잘 보존했다. 직관적으로도 down blocks에서 feature가 압축되므로 up blocks에서 content를 변경하는 것..
FlexEdit: Flexible and Controllable Diffusion-based Object-centric Image Editing Abstract 각 step에서 latent를 반복적으로 조정하여 다양한 편집 작업이 가능한 프레임워크인 FlexEdit 제안 [Project Page] [arXiv](2024/03/27 version v1) Approach Dynamic Object Binary Mask from Attention Map [Dataset Diffusion]: Layer에 걸쳐 self-attention, cross-attention map을 집계하고 self-attention map을 지수화하여 곱하면 cross-attention map을 강화할 수 있다. 강화된 cross-attention map에 임계값을 적용하여 마스크를 얻을 수 있다. Latent Optimization with Object Constraints..
Dataset Diffusion: Diffusion-based Synthetic Dataset Generation for Pixel-Level Semantic Segmentation Abstract 확산 모델을 통해 semantic segmentation dataset을 생성할 수 있는 Dataset Diffusion 제안 [Github] [arXiv](2023/11/13 version v4) Dataset Diffusion Preparing Text Prompts for Stable Diffusion 기존 데이터셋의 캡션은 종종 개체가 누락되거나 통일된 용어를 사용하지 않는 등의 문제가 있다. 모든 target class를 명시적으로 포함하는 text prompt 생성. Generating Segmentation from Self and Cross-attention Maps Layer와 timestep에 걸쳐 self-attention, cross-attention map을 수집한..
Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation Abstract Layout에 맞는 이미지를 생성할 수 있는 Bounded Attention 제안 [Project Page] [arXiv](2024/03/25 version v1) Bounded Attention Bounded Guidance 0, −∞로 채워진 마스크 M을 사용해 다른 subject의 영역이 mask 된 bounded attention map을 구성할 수 있다. 각 subject에 대해 다음과 같은 손실을 집계한다. Subject의 bounding box와 관계없는 잠재 픽셀에 할당된 attention score가 높을수록 손실이 크다. i = subject index, x = 잠재 픽셀 좌표, query, c = key (cross attention의 경우 text condition,..
Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking Abstract LLM이 prompt를 읽거나 답변을 생성할 때 내부적으로 근거를 생각하며 추론하도록 하는 Quiet-STaR 제안 (쓰다 보니까 표기가 일관적이지 못한데, 근거 = 생각 거의 동의어입니다.) [Github] [arXiv](2024/03/18 version v2) 이전 연구 [STaR] Quiet-STaR Overview 병렬적 근거 생성 근거와 기본 예측 혼합 근거 생성 최적화 Parallel Generation 입력 시퀀스의 '모든 토큰'에 대해 다음 토큰을 예측하기 위한 근거 생성. 병렬로 빠르게 생성할 수 있다. 생각은 답변을 생성할 때뿐만 아니라 질문을 읽을 때도 발생할 수 있다. “Mixing” (Residual) Heads 처음에는 '생각'에 대해 익숙하지 않으므로 성능이 저..
STaR: Bootstrapping Reasoning With Reasoning Abstract 답변에 대한 이론적 근거를 생성하도록 하고 bootstrapping을 통해 지속적으로 향상 [Github] [arXiv](2022/05/20 version v2) Method Rationale Generation Bootstrapping (STaR Without Rationalization) 질문과 답변이 있는 초기 데이터셋 D = { X, Y }에 대해 근거 r (rationales)이 있는 예제 prompt set P = {X, R, Y}를 사용하여 in-context learning으로 LLM이 근거와 답변을 출력하도록 한다. 생성된 출력 중 정답을 생성한 출력만으로 새로운 데이터셋 Dn = {X, R, Y}을 구성하고 이 데이터셋으로 모델을 fine-tuning 한다. 이때 주의할..
DoRA: Weight-Decomposed Low-Rank Adaptation Abstract 가중치를 크기와 방향이라는 2가지 구성요소로 분해하여 효율적이고 정확하게 fine-tuning 할 수 있는 DoRA 제안 [Github] [arXiv](2024/03/05 version v3) Pattern Analysis of LoRA and FT Low-Rank Adaptation (LoRA) Weight Decomposition Analysis 가중치를 크기 벡터 m, 방향 행렬 V로 분해하여 LoRA와 Fine-tuning (모든 가중치)의 근본적인 차이를 밝힌다. VL-BART의 Q, V 가중치 행렬의 original weight, fine-tuned weight, merged LoRA weight를 분해하여 크기, 방향의 변화를 다음과 같이 측정한다. LoRA는 크기와 방향의 ..
LoRA+: Efficient Low Rank Adaptation of Large Models Abstract LoRA의 A, B 행렬에 각각 다른 학습률을 적용하여 더 효율적으로 훈련 [Github] [arXiv](2024/02/19 version v1) An Intuitive Analysis of LoRA Low-Rank Adaptation (LoRA) Initialization 일반적으로 a, b 중 하나를 0으로 초기화하며 b를 0으로 초기화할 경우 a는 많이 쓰이는 초기화 방식에 따라 입력 활성화의 크기 n에 반비례하는 분산을 가진다. 이는 큰 활성화의 생성을 방지해 학습을 안정화시킨다. y = Θ(x)는 y가 x에 대한 linear scale을 가진다는 것을 의미한다. y = k*x Learning rate 분석의 단순화를 위해 W* = 0으로 가정하면 gradients는 다음과 같이 ..