본문 바로가기

논문 리뷰

(451)
Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs Abstract 긴 종횡비를 가진 UI 화면을 이해하고 상호작용할 수 있는 Ferret-UI 제안 [arXiv](2024/04/08 version v1) Method Ferret을 기반으로 구축되었다. UI 이미지의 특징은 확장된 종횡비이다. 이전 연구들에서 'anyres' 아이디어를 Ferret에 적용해 단일 이미지에 의존하지 않고 이미지의 종횡비를 기반으로 1×2 또는 2×1 그리드를 추가로 인코딩한다. Dataset and Task Formulation 공개적으로 사용 가능한 UI dataset을 수집한 후 UI 감지 모델을 사용하여 UI 유형 (버튼, 아이콘, 그림 등) 및 표시된 텍스트를 감지한다. GPT-3.5-Turbo를 사용해 기본적인 훈련 샘플 생성. (실제 이미지 대신 감지 결과를 사용..
MagicTime: Time-lapse Video Generation Models as Metamorphic Simulators Abstract Time-lapse video를 통해 실제 물리 지식을 학습하여 metamorphic video 생성이 가능한 MagicTime [Project Page] [Github] [arXiv](2024/04/07 version v1) Methodology ChronoMagic Dataset Data Curation and Filter Youtube에서 time-lapse video를 수집하고 이하 설명할 단계를 거쳐 최종적으로 2265개의 time-lapse video가 포함된 ChronoMagic dataset 제작. Cascade Preprocessing OpenCV로 pixel intensity 차이를 계산하고 CLIP으로 프레임 간 cosine similarity를 측정하여 복잡한 장면 ..
ReFT: Representation Finetuning for Language Models Abstract 가중치 대신 표현을 수정하는 Representation Fine-Tuning (ReFT)의 개념과 low-rank를 활용하여 효율적으로 표현에 개입할 수 있는 LoReFT 제안 [Github] [arXiv](2024/04/08 version v2) ReFT 용어 정의: 입력 시퀀스 x = (x1, ..., xn)는 layer l에서 hidden state hn(l)로 임베딩된다. m layer transformer에서 다음 토큰 xn+1의 확률은 다음과 같이 표현될 수 있다. 여기서 W는 logits으로 매핑하는 행렬 Low-rank Linear Subspace ReFT (LoReFT) 공식은 다음과 같다. h를 low-rank로 투영하여 표현을 수정한다. 피라미터는 다음과 같고 R은 l..
CoMat: Aligning Text-to-Image Diffusion Model with Image-to-Text Concept Matching Abstract 정확한 text-image 정렬을 가능하게 하는 end-to-end fine-tuning 전략인 CoMat 제안 [Project Page] [Github] [arXiv](2024/04/04 version v1) Method Concept Matching Attribute Concentration Fidelity Preservation Concept Matching Captioning model이 생성된 이미지를 보고 prompt의 다음 단어를 예측할 확률을 통해 text-image 정렬을 측정. Attribute Concentration spaCy를 통해 prompt를 구문 분석하여 명사, 속성 쌍 {n, a}을 수집하고 일부 명사 필터링.(e.g. 추상 명사, 배경을 설명하는 명사, 지..
Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction (VAR) Abstract Next-token 예측을 next-scale 예측으로 재정의하는 차세대 패러다임인 Visual AutoRegressive (VAR) modeling 제안 [Project Page] [Github] [arXiv](2024/04/03 version v1) Method AR modeling을 vision에 적용했을 때 문제점: Image encoder는 양방향 상관관계를 가지며 AR의 단방향 가정과 모순된다. 토큰의 평탄화는 이미지에 내재된 공간성을 방해한다. Visual autoregressive modeling via next-scale prediction Reformulation 다음과 같이 AR modeling을 변경한다. 예측하는 것은 하나의 토큰이 아니라 다음 해상도의 모든 토큰이..
Language Models as Compilers: Simulating Pseudocode Execution Improves Algorithmic Reasoning in Language Models (Think-and-Execute) Abstract Task-level logic에 대한 의사 코드를 생성하고 코드 실행을 시뮬레이션하여 논리적으로 추론 [arXiv](2024/04/03 version v1) Think-and-Execute THINK: Describing the Underlying Logic of a Task in a Pseudocode Format 다른 작업의 질문, 분석, 의사 코드 예제를 제공하면 instructor LM I가 목표 작업을 분석하고 의사 코드를 생성한다. 의사 코드를 사용하는 이유는 논리를 글보다 더 효율적이고 명확하게 전달할 수 있기 때문이다. EXECUTE: Simulating the Execution of Pseudocode Prompt for an Instance Reasoner LM R은 의..
Mixture-of-Depths: Dynamically allocating compute in transformer-based language models Abstract 특정 계층에서 계산에 참여하는 토큰 수를 제한하여 FLOPs를 동적으로 할당하는 MoD(Mixture-of-Depths) 제안 [arXiv](2024/04/02 version v1) Implementing Mixture-of-Depths Transformers (1) Self-attention & MLP, (2) Residual connection (계산 우회) 중 하나로 토큰을 라우팅하는 설정을 고려한다. Routing schemes 라우팅 방식에는 2가지가 있다. (왼쪽) Token-choice routing은 각 토큰에 대해 전문가 선호도 분포를 생성하여 라우팅하는 것으로 불균형 할당 문제가 있다. (중간) Expert-choice routing은 반대로 각 전문가가 토큰을 선택하는..
Octopus v2: On-device language model for super agent Abstract Function calling on-device model에서 calling과 parameter 생성을 결합하여 추론 시간을 크게 줄임. [Model Card] [arXiv](2024/04/03 version v2) Methodology Function 호출은 2-stage process를 수반한다. 검색 모델을 통해 사용자 제공 query와 일치하는 function 찾기(e.g. app API, system API) Function과 query를 기반으로 function의 parameter 생성 본문에서는 n개의 각 function에 대한 특수 토큰 을 도입하고 GPT model이 function 예측과 parameter 생성을 동시에 수행하도록 한다. 다음과 같은 prompt temp..
InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation Abstract 참조 이미지에서 content와 style을 분리하고 style attention block에만 주입. [Github] [arXiv](2024/04/03 version v1) Methods Motivations 1. 스타일의 정의가 모호하다. 같은 스타일의 데이터를 수집하는 것은 불가능에 가깝다. 2. Inversion을 사용하면 스타일 정보를 잃게 된다. 3. Content와 style 간의 균형을 잡기가 어려워 content 누출 문제가 발생한다. Observations 1. Adapter의 기능이 과소평가되었다. IP-Adapter로도 강도를 낮추면 content 누출을 줄이고 style을 전달할 수 있다. 2. CLIP feature space는 호환성이 좋으며 특정한 featur..
Advancing LLM Reasoning Generalists with Preference Trees (Eurus) Abstract Multi-turn interaction 궤적을 수집하여 SFT, Preference Learning에 사용 [Github] [arXiv](2024/04/02 version v1) UltraInteract: Tree-structured Alignment Data for Reasoning Instruction은 root고 action은 node이다. Correct action의 모든 node와 correct action으로 끝나는 모든 궤적이 SFT에 사용될 수 있다. Node pair와 궤적 쌍을 선호도 학습에 사용할 수 있다. Instruction Selection Emphasizing Complexity, Quality, and Diversity 수학 문제 해결, 코드 생성, 논리적 ..
Getting it Right: Improving Spatial Consistency in Text-to-Image Models (SPRIGHT Dataset) Abstract Vision dataset의 이미지를 recaption 하여 공간 중심적 데이터셋인 SPRIGHT 제작 [Project Page] [Github] [arXiv](2024/04/01 version v1) The SPRIGHT Dataset LLaVA-1.5를 활용하여 기존 데이터셋의 600만 개의 이미지에 대해 다음과 같은 prompt로 recaption 하여 SPRIGHT dataset 생성. Improving Spatial Consistency SPRIGHT를 효율적으로 활용할 수 있는 방법 제안. 15000개 미만의 이미지가 포함된 데이터셋에서 1:1 비율로 SPRIGHT와 일반 캡션을 샘플링하여 U-Net과 CLIP text encoder를 fine-tuning. Efficient ..
Gecko: Versatile Text Embeddings Distilled from Large Language Models Abstract Query-passage pair를 순진하게 사용하지 않고 재지정하여 text embedding dataset의 품질 향상 [arXiv](2024/03/29 version v1) Training Recipe for Gecko Pre-finetuning 일반적인 LLM 기반 text embedding model의 훈련 방법. 또한 Gecko의 사전 훈련. 대규모 QA, title-body pair 수집. (q-p pair) 그 후 사전 훈련된 LLM에 task t, query q, passage p를 입력하여 토큰 시퀀스를 얻고 대조 학습을 통해 fine-tuning 한다. FRet: Two-Step LLM Distillation LLM을 통해 FRet (Few-shot Prompted R..