본문 바로가기

전체 글

(584)
Language Models as Compilers: Simulating Pseudocode Execution Improves Algorithmic Reasoning in Language Models (Think-and-Execute) Abstract Task-level logic에 대한 의사 코드를 생성하고 코드 실행을 시뮬레이션하여 논리적으로 추론 [arXiv](2024/04/03 version v1) Think-and-Execute THINK: Describing the Underlying Logic of a Task in a Pseudocode Format 다른 작업의 질문, 분석, 의사 코드 예제를 제공하면 instructor LM I가 목표 작업을 분석하고 의사 코드를 생성한다. 의사 코드를 사용하는 이유는 논리를 글보다 더 효율적이고 명확하게 전달할 수 있기 때문이다. EXECUTE: Simulating the Execution of Pseudocode Prompt for an Instance Reasoner LM R은 의..
Mixture-of-Depths: Dynamically allocating compute in transformer-based language models Abstract 특정 계층에서 계산에 참여하는 토큰 수를 제한하여 FLOPs를 동적으로 할당하는 MoD(Mixture-of-Depths) 제안 [arXiv](2024/04/02 version v1) Implementing Mixture-of-Depths Transformers (1) Self-attention & MLP, (2) Residual connection (계산 우회) 중 하나로 토큰을 라우팅하는 설정을 고려한다. Routing schemes 라우팅 방식에는 2가지가 있다. (왼쪽) Token-choice routing은 각 토큰에 대해 전문가 선호도 분포를 생성하여 라우팅하는 것으로 불균형 할당 문제가 있다. (중간) Expert-choice routing은 반대로 각 전문가가 토큰을 선택하는..
Octopus v2: On-device language model for super agent Abstract Function calling on-device model에서 calling과 parameter 생성을 결합하여 추론 시간을 크게 줄임. [Model Card] [arXiv](2024/04/03 version v2) Methodology Function 호출은 2-stage process를 수반한다. 검색 모델을 통해 사용자 제공 query와 일치하는 function 찾기(e.g. app API, system API) Function과 query를 기반으로 function의 parameter 생성 본문에서는 n개의 각 function에 대한 특수 토큰 을 도입하고 GPT model이 function 예측과 parameter 생성을 동시에 수행하도록 한다. 다음과 같은 prompt temp..
InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation Abstract 참조 이미지에서 content와 style을 분리하고 style attention block에만 주입. [Github] [arXiv](2024/04/03 version v1) Methods Motivations 1. 스타일의 정의가 모호하다. 같은 스타일의 데이터를 수집하는 것은 불가능에 가깝다. 2. Inversion을 사용하면 스타일 정보를 잃게 된다. 3. Content와 style 간의 균형을 잡기가 어려워 content 누출 문제가 발생한다. Observations 1. Adapter의 기능이 과소평가되었다. IP-Adapter로도 강도를 낮추면 content 누출을 줄이고 style을 전달할 수 있다. 2. CLIP feature space는 호환성이 좋으며 특정한 featur..
Advancing LLM Reasoning Generalists with Preference Trees (Eurus) Abstract Multi-turn interaction 궤적을 수집하여 SFT, Preference Learning에 사용 [Github] [arXiv](2024/04/02 version v1) UltraInteract: Tree-structured Alignment Data for Reasoning Instruction은 root고 action은 node이다. Correct action의 모든 node와 correct action으로 끝나는 모든 궤적이 SFT에 사용될 수 있다. Node pair와 궤적 쌍을 선호도 학습에 사용할 수 있다. Instruction Selection Emphasizing Complexity, Quality, and Diversity 수학 문제 해결, 코드 생성, 논리적 ..
Getting it Right: Improving Spatial Consistency in Text-to-Image Models (SPRIGHT Dataset) Abstract Vision dataset의 이미지를 recaption 하여 공간 중심적 데이터셋인 SPRIGHT 제작 [Project Page] [Github] [arXiv](2024/04/01 version v1) The SPRIGHT Dataset LLaVA-1.5를 활용하여 기존 데이터셋의 600만 개의 이미지에 대해 다음과 같은 prompt로 recaption 하여 SPRIGHT dataset 생성. Improving Spatial Consistency SPRIGHT를 효율적으로 활용할 수 있는 방법 제안. 15000개 미만의 이미지가 포함된 데이터셋에서 1:1 비율로 SPRIGHT와 일반 캡션을 샘플링하여 U-Net과 CLIP text encoder를 fine-tuning. Efficient ..
Gecko: Versatile Text Embeddings Distilled from Large Language Models Abstract Query-passage pair를 순진하게 사용하지 않고 재지정하여 text embedding dataset의 품질 향상 [arXiv](2024/03/29 version v1) Training Recipe for Gecko Pre-finetuning 일반적인 LLM 기반 text embedding model의 훈련 방법. 또한 Gecko의 사전 훈련. 대규모 QA, title-body pair 수집. (q-p pair) 그 후 사전 훈련된 LLM에 task t, query q, passage p를 입력하여 토큰 시퀀스를 얻고 대조 학습을 통해 fine-tuning 한다. FRet: Two-Step LLM Distillation LLM을 통해 FRet (Few-shot Prompted R..
Jamba: A Hybrid Transformer-Mamba Language Model Abstract Transformer + Mamba + MoE [AI21 labs Blog] [arXiv](2024/03/28 version v1) 이거 완전 혁명인 거 같다;; Positional encoding도 필요 없고 속도나 메모리면에서 훨씬 효율적이면서도 transformer랑 성능 비슷함;; Introduction Transformer의 단점: 높은 메모리, 컴퓨팅 비용 단일 요약 상태가 없다. (항상 시퀀스로 존재한다.) Mamba는 Transformer보다 성능은 뒤처지지만 더 효율적이고 장거리 모델링에 적합하다. Jamba에는 MoE도 포함된다. Model Architecture Jamba block은 number of layers (default l = 8) ratio of atten..
sDPO: Don't Use Your Data All at Once Abstract Dataset을 분할하여 단계적으로 DPO 수행 [arXiv](2024/03/28 version v1) Stepwise DPO sDPO의 아이디어는 매우 단순하다. 데이터셋을 하위 집합으로 분할하여 단계적으로 DPO를 수행한다. 참조 모델의 로그 확률 계산은 DPO를 수행하기 위해 필요하다. 참조 모델은 목표 모델의 하한으로 작용하며, 이 하한을 점점 높임으로써 최종 모델의 성능을 향상할 수 있다는 것이다. 동일한 데이터셋으로 여러 번 학습하는 것과 뭐가 다르지? 라고 생각할 수 있지만 논문에 언급되어 있는 것처럼 쉬운 작업부터 시작해서 어려운 작업까지 단계적인 커리큘럼을 사용하면 복잡한 문제에 더 잘 적응할 수 있을 것 같긴 하다. 실험에서도 정량적으로 증명했다. Experiments ..
Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models Abstract 고해상도 이미지에 대한 추가 vision encoder를 통해 이미지 이해를 향상한 Mini-Gemini [Project Page] [Github] [arXiv](2024/03/27 version v1) Mini-Gemini Dual Vision Encoders LR encoder는 전통적으로 사용되는 CLIP-ViT, HR encoder는 CNN 기반 인코더인 ConvNeXt. Patch Info Mining (a) LR, HR 임베딩 간의 cross-attention. (b) LR 이미지를 업스케일하여 visual token의 수를 N → 5N으로 증강할 수 있다. 필요시 HR 이미지 또한 증강 가능. Text and Image Generation Visual token과 text t..
ViTAR: Vision Transformer with Any Resolution Abstract Grid Attention, Fuzzy PE를 통해 낮은 비용으로 다양한 해상도의 이미지를 처리하는 Vision Transformer with Any Resolution (ViTAR) 제안 [arXiv](2024/03/28 version v2) Methods Adaptive Token Merger (ATM) 입력을 일정한 크기의 grid로 나누고 그리드 내 평균 토큰을 Q, 나머지를 K, V로 attention을 수행한 뒤 FFN을 통과한다. 동일한 가중치를 가진 ATM block을 여러 번 반복하여 목표 해상도 Gh × Gw 까지 줄인다. 가장자리의 grid에 패딩 토큰만 존재하는 경우를 방지하기 위해 가장자리 근처의 각 grid에 패딩을 적절하게 배치하는 grid padding을 사용..
Implicit Style-Content Separation using B-LoRA Abstract 두 개의 특정 블록의 LoRA 가중치를 학습하여 암시적으로 content와 style을 분리하는 B-LoRA 제안 [Project Page] [Github] [arXiv](2024/03/21 version v1) Method SDXL Architecture Analysis SDXL의 각 block에 다른 prompt를 주입하여 영향을 분석했다. 2, 4 block은 content를, 5 block은 색상을 주로 결정하는 것으로 나타났다. LoRA-Based Separation with B-LoRA 실험 결과 2 block 보다 4 block이 content를 더 잘 보존했다. 직관적으로도 down blocks에서 feature가 압축되므로 up blocks에서 content를 변경하는 것..