본문 바로가기

논문 리뷰

(452)
TEQ: Trainable Equivalent Transformation for Quantization of LLMs 채널별 scaling vector를 학습 가능하게 함 SmoothQuant와의 차이는 이것밖에 없는 듯 [Github] [arXiv](Current version v1) Abstract LLM(Large Language Model)에서 낮은 정밀도 양자화를 활용하면서 모델 출력의 FP32 정밀도를 유지하는 훈련 가능한 등가 변환인 TEQ 제안 Introduction 일반적인 양자화 방법은 두 가지 범주로 나눌 수 있다. QAT는 매우 많은 피라미터를 가진 LLM에 적합하지 않고, PTQ는 정확도가 매우 떨어지는 단점이 있다. 모델 출력의 수학적 등가성을 FP32 정밀도로 유지하는 학습 가능한 등가 변환을 도입하여 압축 오류를 줄인다. 원래 모델의 0.1% 미만의 훈련 가능한 피라미터로 빠르게 훈련된다. ..
SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models 채널별 스케일링을 통해 LLM 양자화 [Github] [arXiv](Current version v5) Abstract LLM에 대한 8비트 가중치, 8비트 활성화(W8A8) 양자화를 가능하게 하는 훈련이 필요 없고 정확도를 유지하는 범용 PTQ(훈련 후 양자화) 솔루션인 SmoothQuant 제안 Introduction 양자화를 통해 LLM의 막대한 계산 비용을 줄일 수 있다. 예를 들어 INT8 양자화를 사용하면 FP16에 비해 처리량을 거의 두 배로 늘릴 수 있다. 하지만 LLM의 매우 많은 피라미터로부터 나오는 많은 이상치로 인해 정확도가 크게 떨어진다. SmoothQuant는 이상치의 존재로 인해 활성화가 가중치보다 양자화하기가 훨씬 더 어렵더라도 토큰들은 채널 전반에 걸쳐 유사한 변형을 나타낸..
EVA-CLIP: Improved Training Techniques for CLIP at Scale EVA에서 훈련 효율성을 주로 개선하여 최대한 큰 배치에서 많이 훈련할 수 있도록 함 Foundation Model이라 그런 건지 각 샘플의 정확성?을 희생하고 배치를 최대한으로 늘렸더니 성능이 좋아짐. 사실 희생이라기도 뭐한게 결과적으로 과적합을 줄여주기도 하니까... 그럼 무조건 이득인데? [Github] [arXiv](Current version v1) [EVA-01, EVA-02] Abstract CLIP 훈련의 효율성과 효과를 획기적으로 향상하는 일련의 모델인 EVA-CLIP 제안. Introduction CLIP은 강력한 vision-language foundation model이지만 높은 훈련 비용과 확장 시 훈련 불안정성 문제가 있다. 본 논문에서는 pre-training EVA 표현으로 ..
EVA-02: A Visual Representation for Neon Genesis Architecture 개선, EVA-01의 visual feature space 계승 [Github] [arXiv](Current version v2) [EVA-01] Abstract MIM(Masked Image Modeling)을 통해 language-aligned vision feature를 재구성하도록 사전 훈련된 차세대 Transformer 기반 시각적 표현인 EVA-02 출시. Introduction MIM pre-training을 통해 CLIP의 시각적 표현과 적당한 모델 크기를 갖춘 강력하게 최적화된 ViT 시리즈인 EVA-02 제시. EVA-02 시리즈는 6M부터 304M까지 다양한 모델 크기가 포함되어 있으며 다운스트림 작업에 탁월한 성능을 보여줌. Approach Architectu..
EVA: Exploring the Limits of Masked Visual Representation Learning at Scale CLIP의 시각적 표현을 10억 개의 피라미터를 가진 ViT 모델로 scale-up 하는 MIM pre-training 작업 [Github] [arXiv](Current version v2) Abstract EVA는 마스크 된 vision feature를 재구성하도록 사전 훈련된 바닐라 ViT 모델이다. EVA는 다양한 다운스트림 작업에 적용할 수 있다. Introduction 수천만 개의 non-label 데이터와 10억 개의 매개변수 규모에서 대규모 비전 표현 학습에 적합한 MIM(Masked Image Modeling) pretext 작업을 탐색한다. 연구진은 경험적으로 단순히 이미지-텍스트 정렬된 vision feature(CLIP)를 예측 대상으로 사용하는 것이 다운스트림 작업에서 좋은 성능을 ..
From CLIP to DINO: Visual Encoders Shout in Multi-modal Large Language Models (COMM) LLM에 입력되는 feature 자체에 대한 연구, 계층과 모델에 대한 통합 feature 사용 [Github] [arXiv](Current version v1) Abstract Multi-modal Large Language Model(MLLM) 내의 다양한 비전 인코더의 효율성에 대한 광범위한 조사를 수행한다. 관찰을 바탕으로 multi-level feature merging과 함께 DINOv2와 CLIP의 시각적 임베딩을 융합하는 COMM 제안. Introduction 대부분의 기존 MLLM은 CLIP 또는 그 변형인 EVA-CLIP을 시각적 분기로 사용한다. CLIP의 visual encoder는 단어 임베딩 공간과 잘 정렬되어 있지만 자세한 픽셀 수준 정보는 학습하지 못해 MLLM의 세밀한 인식..
Semantic-SAM: Segment and Recognize Anything at Any Granularity [Github] [arXiv](Current version v1) Abstract 사용자가 원하는 level로 무엇이든 분할하고 인식할 수 있는 범용 이미지 분할 모델인 Semantic-SAM 소개. 이를 달성하기 위한 다중 선택 학습 방식은 다양한 segmentation dataset에 대해 공동으로 훈련하려는 최초의 시도이다. Introduction 범용 이미지 분할 모델의 주요 장애물: Model Architecture: 단일 입력 - 단일 출력 파이프라인 Training Data: 의미 인식, 세분성(granularity) 인식을 모두 갖춘 데이터셋이 없음 Semantic-SAM에서는 한 번의 클릭으로 여러 세분성을 예측. 이러한 기능은 다중 선택 학습 설계(multi-choice learning..
Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation 픽셀, 잠재 기반 Diffusion Model을 혼합하여 적은 비용으로 고품질 비디오 생성 가능 [Project Page] [Github] [arXiv] Abstract 픽셀 기반 및 잠재 기반 VDM(Video Diffusion Model)을 결합한 Show-1 제안 Introduction 픽셀 기반 VDM: 프롬프트에 정확하게 맞춰진 모션을 생성할 수 있지만 높은 계산 비용 잠재 기반 VDM: 계산 효율이 좋지만 해상도가 높아질수록 비디오-텍스트 정렬 무시 키 프레임 생성, 프레임 보간, 초해상도에 각각의 모듈을 사용. 본 논문의 기여: 저해상도에서는 텍스트 정렬이 정확한 픽셀 기반 VDM을, 고해상도에서는 정렬된 결과를 바탕으로 계산 효율이 높은 잠재 기반 VDM을 사용하여 고품질 비디오 생성 낮은..
Ferret: Refer and Ground Anything Anywhere at Any Granularity MLLM에서 자유 형식의 영역 입력을 처리할 수 있는 최초의 작업 [arXiv] [Github] Abstract 공간 참조를 이해하고 open-vocabulary description을 grounding 할 수 있는 새로운 MLLM(Multi-modal Large Language Model)인 Ferret 소개. 다양한 입력을 수용할 수 있는 spatial-aware visual sampler GRIT dataset Introduction Referring(참조: 영역 → 의미), grounding(접지: 의미 → 영역) 참조와 접지는 본질적으로 공간 정보와 의미의 정렬이 필요함. Spatial-aware visual sampler를 통해 모든 모양의 영역에 대한 visual feature를 획득할 수 ..
ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with Diffusion Models Receptive field 확장으로 초고해상도 이미지 생성 고해상도에서의 객체 반복은 사실 diffusion model 만의 문제가 아니다. 굉장히 의미 있는 논문이라고 생각함. [Project Page] [Github] [arXiv] Abstract 512x512에서 사전 훈련된 Stable Diffusion을 사용하여 고해상도에서 이미지를 생성할 때 다양한 문제가 관찰됨. 연구진은 컨볼루션의 제한된 수용 필드에서 문제를 찾고 이를 동적으로 조절할 수 있는 re-dilation 제안. 초고해상도 이미지 생성을 가능하게 하는 dispersed convolution, noise-damped classifier-free guidance 제안. Fine-tuning이나 최적화가 필요하지 않음. Introdu..
Improved Baselines with Visual Instruction Tuning (LLaVA-1.5) LLaVA에 대한 간단한 수정을 통해 성능 향상 LLaVA도 굉장히 장점이 많은 모델인데 이번 논문도 내용도 핵심만 딱 있어서 간결하고, 제안한 내용도 간단하고 성능 향상은 많이 되고 정말 좋은 논문이다. 다들 논문을 이렇게 써야 하는데...ㅇㅅㅇ [arXiv] [Github] Abstract LMM(Large Multimodal Model) 중 하나인 LLaVA에 대한 간단한 수정을 통해 성능 향상 Introduction LLaVA의 장점: LLM, vision encoder 사이에 projection layer만을 추가한 매우 간단한 구조 단일 8-A100 machine에서 1일 만에 훈련 가능한 매우 빠른 학습 속도 공개적으로 사용 가능한 데이터만을 사용 LLaVA-1.5 MLP cross-moda..
AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation Multi-agent 간의 대화를 중심으로 한 conversation programming으로 LLM application 구축 [Github] [arXiv] Abstract서로 대화할 수 있는 여러 에이전트를 통해 LLM application을 구축할 수 있는 open-source framework인 AutoGen Introduction개발자는 AutoGen을 통해 다양한 역할을 가진 에이전트를 쉽고 빠르게 생성할 수 있다. 또한 쉽게 사용자 정의 동작을 확장할 수 있고, 모든 에이전트는 대화가 가능하게 만들어졌다. 모듈식으로 LLM의 기능을 확장 가능. AutoGen의 근본 통찰은 복잡한 LLM application workflow를 다중 에이전트 대화로 단순화하고 통합하는 것이다. 따라서 에이전트 ..