본문 바로가기

분류 전체보기

(540)
CoMat: Aligning Text-to-Image Diffusion Model with Image-to-Text Concept Matching Abstract 정확한 text-image 정렬을 가능하게 하는 end-to-end fine-tuning 전략인 CoMat 제안 [Project Page] [Github] [arXiv](2024/04/04 version v1) Method Concept Matching Attribute Concentration Fidelity Preservation Concept Matching Captioning model이 생성된 이미지를 보고 prompt의 다음 단어를 예측할 확률을 통해 text-image 정렬을 측정. Attribute Concentration spaCy를 통해 prompt를 구문 분석하여 명사, 속성 쌍 {n, a}을 수집하고 일부 명사 필터링.(e.g. 추상 명사, 배경을 설명하는 명사, 지..
Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction (VAR) Abstract Next-token 예측을 next-scale 예측으로 재정의하는 차세대 패러다임인 Visual AutoRegressive (VAR) modeling 제안 [Project Page] [Github] [arXiv](2024/04/03 version v1) Method AR modeling을 vision에 적용했을 때 문제점: Image encoder는 양방향 상관관계를 가지며 AR의 단방향 가정과 모순된다. 토큰의 평탄화는 이미지에 내재된 공간성을 방해한다. Visual autoregressive modeling via next-scale prediction Reformulation 다음과 같이 AR modeling을 변경한다. 예측하는 것은 하나의 토큰이 아니라 다음 해상도의 모든 토큰이..
Language Models as Compilers: Simulating Pseudocode Execution Improves Algorithmic Reasoning in Language Models (Think-and-Execute) Abstract Task-level logic에 대한 의사 코드를 생성하고 코드 실행을 시뮬레이션하여 논리적으로 추론 [arXiv](2024/04/03 version v1) Think-and-Execute THINK: Describing the Underlying Logic of a Task in a Pseudocode Format 다른 작업의 질문, 분석, 의사 코드 예제를 제공하면 instructor LM I가 목표 작업을 분석하고 의사 코드를 생성한다. 의사 코드를 사용하는 이유는 논리를 글보다 더 효율적이고 명확하게 전달할 수 있기 때문이다. EXECUTE: Simulating the Execution of Pseudocode Prompt for an Instance Reasoner LM R은 의..
Mixture-of-Depths: Dynamically allocating compute in transformer-based language models Abstract 특정 계층에서 계산에 참여하는 토큰 수를 제한하여 FLOPs를 동적으로 할당하는 MoD(Mixture-of-Depths) 제안 [arXiv](2024/04/02 version v1) Implementing Mixture-of-Depths Transformers (1) Self-attention & MLP, (2) Residual connection (계산 우회) 중 하나로 토큰을 라우팅하는 설정을 고려한다. Routing schemes 라우팅 방식에는 2가지가 있다. (왼쪽) Token-choice routing은 각 토큰에 대해 전문가 선호도 분포를 생성하여 라우팅하는 것으로 불균형 할당 문제가 있다. (중간) Expert-choice routing은 반대로 각 전문가가 토큰을 선택하는..
Octopus v2: On-device language model for super agent Abstract Function calling on-device model에서 calling과 parameter 생성을 결합하여 추론 시간을 크게 줄임. [Model Card] [arXiv](2024/04/03 version v2) Methodology Function 호출은 2-stage process를 수반한다. 검색 모델을 통해 사용자 제공 query와 일치하는 function 찾기(e.g. app API, system API) Function과 query를 기반으로 function의 parameter 생성 본문에서는 n개의 각 function에 대한 특수 토큰 을 도입하고 GPT model이 function 예측과 parameter 생성을 동시에 수행하도록 한다. 다음과 같은 prompt temp..
InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation Abstract 참조 이미지에서 content와 style을 분리하고 style attention block에만 주입. [Github] [arXiv](2024/04/03 version v1) Methods Motivations 1. 스타일의 정의가 모호하다. 같은 스타일의 데이터를 수집하는 것은 불가능에 가깝다. 2. Inversion을 사용하면 스타일 정보를 잃게 된다. 3. Content와 style 간의 균형을 잡기가 어려워 content 누출 문제가 발생한다. Observations 1. Adapter의 기능이 과소평가되었다. IP-Adapter로도 강도를 낮추면 content 누출을 줄이고 style을 전달할 수 있다. 2. CLIP feature space는 호환성이 좋으며 특정한 featur..
Advancing LLM Reasoning Generalists with Preference Trees (Eurus) Abstract Multi-turn interaction 궤적을 수집하여 SFT, Preference Learning에 사용 [Github] [arXiv](2024/04/02 version v1) UltraInteract: Tree-structured Alignment Data for Reasoning Instruction은 root고 action은 node이다. Correct action의 모든 node와 correct action으로 끝나는 모든 궤적이 SFT에 사용될 수 있다. Node pair와 궤적 쌍을 선호도 학습에 사용할 수 있다. Instruction Selection Emphasizing Complexity, Quality, and Diversity 수학 문제 해결, 코드 생성, 논리적 ..
Getting it Right: Improving Spatial Consistency in Text-to-Image Models (SPRIGHT Dataset) Abstract Vision dataset의 이미지를 recaption 하여 공간 중심적 데이터셋인 SPRIGHT 제작 [Project Page] [Github] [arXiv](2024/04/01 version v1) The SPRIGHT Dataset LLaVA-1.5를 활용하여 기존 데이터셋의 600만 개의 이미지에 대해 다음과 같은 prompt로 recaption 하여 SPRIGHT dataset 생성. Improving Spatial Consistency SPRIGHT를 효율적으로 활용할 수 있는 방법 제안. 15000개 미만의 이미지가 포함된 데이터셋에서 1:1 비율로 SPRIGHT와 일반 캡션을 샘플링하여 U-Net과 CLIP text encoder를 fine-tuning. Efficient ..
Gecko: Versatile Text Embeddings Distilled from Large Language Models Abstract Query-passage pair를 순진하게 사용하지 않고 재지정하여 text embedding dataset의 품질 향상 [arXiv](2024/03/29 version v1) Training Recipe for Gecko Pre-finetuning 일반적인 LLM 기반 text embedding model의 훈련 방법. 또한 Gecko의 사전 훈련. 대규모 QA, title-body pair 수집. (q-p pair) 그 후 사전 훈련된 LLM에 task t, query q, passage p를 입력하여 토큰 시퀀스를 얻고 대조 학습을 통해 fine-tuning 한다. FRet: Two-Step LLM Distillation LLM을 통해 FRet (Few-shot Prompted R..
Jamba: A Hybrid Transformer-Mamba Language Model Abstract Transformer + Mamba + MoE [AI21 labs Blog] [arXiv](2024/03/28 version v1) 이거 완전 혁명인 거 같다;; Positional encoding도 필요 없고 속도나 메모리면에서 훨씬 효율적이면서도 transformer랑 성능 비슷함;; Introduction Transformer의 단점: 높은 메모리, 컴퓨팅 비용 단일 요약 상태가 없다. (항상 시퀀스로 존재한다.) Mamba는 Transformer보다 성능은 뒤처지지만 더 효율적이고 장거리 모델링에 적합하다. Jamba에는 MoE도 포함된다. Model Architecture Jamba block은 number of layers (default l = 8) ratio of atten..
sDPO: Don't Use Your Data All at Once Abstract Dataset을 분할하여 단계적으로 DPO 수행 [arXiv](2024/03/28 version v1) Stepwise DPO sDPO의 아이디어는 매우 단순하다. 데이터셋을 하위 집합으로 분할하여 단계적으로 DPO를 수행한다. 참조 모델의 로그 확률 계산은 DPO를 수행하기 위해 필요하다. 참조 모델은 목표 모델의 하한으로 작용하며, 이 하한을 점점 높임으로써 최종 모델의 성능을 향상할 수 있다는 것이다. 동일한 데이터셋으로 여러 번 학습하는 것과 뭐가 다르지? 라고 생각할 수 있지만 논문에 언급되어 있는 것처럼 쉬운 작업부터 시작해서 어려운 작업까지 단계적인 커리큘럼을 사용하면 복잡한 문제에 더 잘 적응할 수 있을 것 같긴 하다. 실험에서도 정량적으로 증명했다. Experiments ..
Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models Abstract 고해상도 이미지에 대한 추가 vision encoder를 통해 이미지 이해를 향상한 Mini-Gemini [Project Page] [Github] [arXiv](2024/03/27 version v1) Mini-Gemini Dual Vision Encoders LR encoder는 전통적으로 사용되는 CLIP-ViT, HR encoder는 CNN 기반 인코더인 ConvNeXt. Patch Info Mining (a) LR, HR 임베딩 간의 cross-attention. (b) LR 이미지를 업스케일하여 visual token의 수를 N → 5N으로 증강할 수 있다. 필요시 HR 이미지 또한 증강 가능. Text and Image Generation Visual token과 text t..