본문 바로가기

분류 전체보기

(525)
ViTAR: Vision Transformer with Any Resolution Abstract Grid Attention, Fuzzy PE를 통해 낮은 비용으로 다양한 해상도의 이미지를 처리하는 Vision Transformer with Any Resolution (ViTAR) 제안 [arXiv](2024/03/28 version v2) Methods Adaptive Token Merger (ATM) 입력을 일정한 크기의 grid로 나누고 그리드 내 평균 토큰을 Q, 나머지를 K, V로 attention을 수행한 뒤 FFN을 통과한다. 동일한 가중치를 가진 ATM block을 여러 번 반복하여 목표 해상도 Gh × Gw 까지 줄인다. 가장자리의 grid에 패딩 토큰만 존재하는 경우를 방지하기 위해 가장자리 근처의 각 grid에 패딩을 적절하게 배치하는 grid padding을 사용..
Implicit Style-Content Separation using B-LoRA Abstract 두 개의 특정 블록의 LoRA 가중치를 학습하여 암시적으로 content와 style을 분리하는 B-LoRA 제안 [Project Page] [Github] [arXiv](2024/03/21 version v1) Method SDXL Architecture Analysis SDXL의 각 block에 다른 prompt를 주입하여 영향을 분석했다. 2, 4 block은 content를, 5 block은 색상을 주로 결정하는 것으로 나타났다. LoRA-Based Separation with B-LoRA 실험 결과 2 block 보다 4 block이 content를 더 잘 보존했다. 직관적으로도 down blocks에서 feature가 압축되므로 up blocks에서 content를 변경하는 것..
FlexEdit: Flexible and Controllable Diffusion-based Object-centric Image Editing Abstract 각 step에서 latent를 반복적으로 조정하여 다양한 편집 작업이 가능한 프레임워크인 FlexEdit 제안 [Project Page] [arXiv](2024/03/27 version v1) Approach Dynamic Object Binary Mask from Attention Map [Dataset Diffusion]: Layer에 걸쳐 self-attention, cross-attention map을 집계하고 self-attention map을 지수화하여 곱하면 cross-attention map을 강화할 수 있다. 강화된 cross-attention map에 임계값을 적용하여 마스크를 얻을 수 있다. Latent Optimization with Object Constraints..
Dataset Diffusion: Diffusion-based Synthetic Dataset Generation for Pixel-Level Semantic Segmentation Abstract 확산 모델을 통해 semantic segmentation dataset을 생성할 수 있는 Dataset Diffusion 제안 [Github] [arXiv](2023/11/13 version v4) Dataset Diffusion Preparing Text Prompts for Stable Diffusion 기존 데이터셋의 캡션은 종종 개체가 누락되거나 통일된 용어를 사용하지 않는 등의 문제가 있다. 모든 target class를 명시적으로 포함하는 text prompt 생성. Generating Segmentation from Self and Cross-attention Maps Layer와 timestep에 걸쳐 self-attention, cross-attention map을 수집한..
Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation Abstract Layout에 맞는 이미지를 생성할 수 있는 Bounded Attention 제안 [Project Page] [arXiv](2024/03/25 version v1) Bounded Attention Bounded Guidance 0, −∞로 채워진 마스크 M을 사용해 다른 subject의 영역이 mask 된 bounded attention map을 구성할 수 있다. 각 subject에 대해 다음과 같은 손실을 집계한다. Subject의 bounding box와 관계없는 잠재 픽셀에 할당된 attention score가 높을수록 손실이 크다. i = subject index, x = 잠재 픽셀 좌표, query, c = key (cross attention의 경우 text condition,..
Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking Abstract LLM이 prompt를 읽거나 답변을 생성할 때 내부적으로 근거를 생각하며 추론하도록 하는 Quiet-STaR 제안 (쓰다 보니까 표기가 일관적이지 못한데, 근거 = 생각 거의 동의어입니다.) [Github] [arXiv](2024/03/18 version v2) 이전 연구 [STaR] Quiet-STaR Overview 병렬적 근거 생성 근거와 기본 예측 혼합 근거 생성 최적화 Parallel Generation 입력 시퀀스의 '모든 토큰'에 대해 다음 토큰을 예측하기 위한 근거 생성. 병렬로 빠르게 생성할 수 있다. 생각은 답변을 생성할 때뿐만 아니라 질문을 읽을 때도 발생할 수 있다. “Mixing” (Residual) Heads 처음에는 '생각'에 대해 익숙하지 않으므로 성능이 저..
STaR: Bootstrapping Reasoning With Reasoning Abstract 답변에 대한 이론적 근거를 생성하도록 하고 bootstrapping을 통해 지속적으로 향상 [Github] [arXiv](2022/05/20 version v2) Method Rationale Generation Bootstrapping (STaR Without Rationalization) 질문과 답변이 있는 초기 데이터셋 D = { X, Y }에 대해 근거 r (rationales)이 있는 예제 prompt set P = {X, R, Y}를 사용하여 in-context learning으로 LLM이 근거와 답변을 출력하도록 한다. 생성된 출력 중 정답을 생성한 출력만으로 새로운 데이터셋 Dn = {X, R, Y}을 구성하고 이 데이터셋으로 모델을 fine-tuning 한다. 이때 주의할..
DoRA: Weight-Decomposed Low-Rank Adaptation Abstract 가중치를 크기와 방향이라는 2가지 구성요소로 분해하여 효율적이고 정확하게 fine-tuning 할 수 있는 DoRA 제안 [Github] [arXiv](2024/03/05 version v3) Pattern Analysis of LoRA and FT Low-Rank Adaptation (LoRA) Weight Decomposition Analysis 가중치를 크기 벡터 m, 방향 행렬 V로 분해하여 LoRA와 Fine-tuning (모든 가중치)의 근본적인 차이를 밝힌다. VL-BART의 Q, V 가중치 행렬의 original weight, fine-tuned weight, merged LoRA weight를 분해하여 크기, 방향의 변화를 다음과 같이 측정한다. LoRA는 크기와 방향의 ..
LoRA+: Efficient Low Rank Adaptation of Large Models Abstract LoRA의 A, B 행렬에 각각 다른 학습률을 적용하여 더 효율적으로 훈련 [Github] [arXiv](2024/02/19 version v1) An Intuitive Analysis of LoRA Low-Rank Adaptation (LoRA) Initialization 일반적으로 a, b 중 하나를 0으로 초기화하며 b를 0으로 초기화할 경우 a는 많이 쓰이는 초기화 방식에 따라 입력 활성화의 크기 n에 반비례하는 분산을 가진다. 이는 큰 활성화의 생성을 방지해 학습을 안정화시킨다. y = Θ(x)는 y가 x에 대한 linear scale을 가진다는 것을 의미한다. y = k*x Learning rate 분석의 단순화를 위해 W* = 0으로 가정하면 gradients는 다음과 같이 ..
RAFT: Adapting Language Model to Domain Specific RAG Abstract 요약: Test domain을 알고 있다면 모델을 도메인에 특화하여 retriever가 가져온 문서를 스스로 필터링하도록 훈련할 수 있다. [Page] [arXiv](2024/03/15 version v1) Introduction LLM을 전문 도메인에 적용할 때 Retrieval Augmented Generation (RAG)와 fine-tuning을 고려할 수 있다. 하지만 RAG는 고정된 도메인, early access의 이점을 활용하지 못한다. Fine-tuning은 문서에 대한 접근 자체가 불가능하다. LLMs for Open-Book Exam Closed-Book Exam Fine-tuning은 외부 문서에 접근하지 못하는 closed-book exam과 같다. Open Boo..
Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation (SD3-Turbo, LADD) Abstract 픽셀 기반인 Adversarial Diffusion Distillation과 달리 사전 훈련된 잠재 확산 모델의 generative feature를 활용하여 ADD의 한계를 극복한 Latent Adversarial Diffusion Distillation (LADD) 제안 [arXiv](2024/03/18 version v1) Introduction Adversarial Diffusion Distillation (ADD)에서는 판별기의 backbone으로 DINOv2 encoder를 사용하는데, 이는 단점이 있다. 판별기의 훈련 해상도가 518×518로 제한된다. 판별기의 피드백 수준을 제어할 수 없다. 판별기가 잠재 공간에서 훈련되지 않아 RGB 공간으로 디코딩해야 한다. Backgro..
MoAI: Mixture of All Intelligence for Large Language and Vision Models [Github] [arXiv](2024/03/12 version v1) Abstract Detection, OCR 등의 외부 CV 모델의 출력을 언어화하여 Vision-Language task에 활용하는 MoAI (Mixture of All Intelligence) 제안 MoAI: Mixture of All Intelligence MoAI는 vision encoder와 MLP, MoAI-Mixer가 장착된 MLM, 외부 CV를 활용하는 MoAI-Compressor로 구성되어 있다. Vision encoder = CLIP-L/14, MLM = InternLM Verbalization Verbalization이라는 과정을 통해 외부 CV model의 출력을 자연어 형식으로 변환. MoAI-Compressor..