OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding

Abstract

범용 분할 모델을 visual encoder로 사용하여 pixel-level 능력을 향상하고 다양한 유형의 입력을 처리할 수 있는 단일 모델인 OMG-LLaVA 제안

[Project Page]

[Github]

[arXiv](2024/06/27 version v1)

Methodology

Task Unification

3가지 유형의 토큰이 있다.

텍스트 토큰 T_t, 픽셀 중심 시각 토큰 T_pv, 객체 중심 시각 토큰 T_ov.

OMG-LLaVA에서 LLM이 입출력 가능한 토큰 유형은 다음과 같다.

OMG-LLaVA Framework

Image Encoder

ConvNeXt-L 기반 CLIP 모델 사용.

OMG Decoder

학습 가능한 쿼리 세트가 입력에 포함되며 MCA, SA로 이루어져 있다.

오른쪽 그림은 입력 visual prompt에 따라 MCA layer의 attention mask를 수정하는 모습이다.

Perception Prior Embedding

사전 훈련된 OMG-Seg는 훈련 내내 고정된 상태로 유지되는데, 그러면 LLM과 잘 정렬되지 않기 때문에 object query를 image feature에 통합하는 perception prior embedding 과정을 추가한다.

Query로부터 얻은 마스크와 신뢰도를 바탕으로 각 픽셀의 마스크 점수를 얻고 Q를 곱하여 각 픽셀에 대한 가중 객체 쿼리를 얻는다. 여기에 F를 추가하여 T_pv를 얻고

그리고 필터링된 foreground object query T_ov와 연결하여 OMG-Seg의 출력을 형성한다.

Visual Projector and Text Projector

Pixel-centric visual token, object-centric visual token을 LLM space에 매핑하고 [SEG] 토큰을 visual space에 매핑하는 데 3개의 MLP가 각각 사용된다.

Instruction Formulation

OMG-LLaVA는 여러 가지 작업을 처리할 수 있는데, 이들을 통합하기 위해 <Image>, <Region>, [SEG] 토큰을 사용하여 instruction을 공식화한다.

Training Setup

첫 번째 단계에서는 projectors만 훈련하고

두 번째 단계에서는 LLM에 LoRA를 추가하여 같이 훈련한다. (OMG-Seg는 사전 훈련된 모델을 사용하고 훈련하지 않는다.)

Experiment

Project Page

OMG-Seg

We propose OMG-LLaVA, a new and elegant framework combining powerful pixel-level vision understanding with reasoning abilities. It can accept various visual and text prompts for flexible user interaction. Specifically, we use a universal segmentation metho

lxtgh.github.io

저작자표시

'논문 리뷰 > Language Model' 카테고리의 다른 글

Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs (0)	2024.07.01
Refusal in Language Models Is Mediated by a Single Direction (Daredevil-8B) (0)	2024.06.28
Be like a Goldfish, Don't Memorize! Mitigating Memorization in Generative LLMs (Goldfish Loss) (0)	2024.06.26
Scalable MatMul-free Language Modeling (0)	2024.06.25
Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B (MCTSr) (0)	2024.06.25
Diffusion On Syntax Trees For Program Synthesis (Tree Diffusion) (0)	2024.06.12

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Ostin X

OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding

Abstract

Methodology

Task Unification

OMG-LLaVA Framework

Training Setup

Experiment

'논문 리뷰 > Language Model' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding

Abstract

Methodology

Task Unification

OMG-LLaVA Framework

Training Setup

Experiment

'논문 리뷰 > Language Model' 카테고리의 다른 글

'논문 리뷰/Language Model' Related Articles

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역