본문 바로가기

논문 리뷰/Language Model

Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs

 

Abstract

긴 종횡비를 가진 UI 화면을 이해하고 상호작용할 수 있는 Ferret-UI 제안 

 

[arXiv](2024/04/08 version v1)

 

 

 

Method

Ferret을 기반으로 구축되었다.

 

UI 이미지의 특징은 확장된 종횡비이다.

이전 연구들에서 'anyres' 아이디어를 Ferret에 적용해 단일 이미지에 의존하지 않고 이미지의 종횡비를 기반으로 1×2 또는 2×1 그리드를 추가로 인코딩한다.

 

 

 

Dataset and Task Formulation

공개적으로 사용 가능한 UI dataset을 수집한 후 UI 감지 모델을 사용하여 UI 유형 (버튼, 아이콘,  그림 등) 및 표시된 텍스트를 감지한다.

 

GPT-3.5-Turbo를 사용해 기본적인 훈련 샘플 생성. (실제 이미지 대신 감지 결과를 사용)

 

GPT-4를 사용해 고급 작업에 대한 훈련 샘플 생성.

 

 

 

Experiments

기본적인 작업, grounding 작업에서는 강세를 보이지만 고급 작업은 GPT-4V에 밀린다.