본문 바로가기

논문 리뷰/Vision Transformer

Matte Anything: Interactive Natural Image Matting with Segment Anything Models (MatAny)

매우 간편한 interactive image matting

 

Github

arXiv

 

 

Abstract

추가 교육 없이 SAM(Segment Anything Model)으로 윤곽선을 예측하고 OV(openvocabulary) detector로 투명도를 예측한 뒤 alpha matte를 생성하는 interactive matting algorithm인 MatAny 제안

 

 

 

Introduction

Trimap은 이미지를 foreground, background, unknown으로 나눈 hint map이다.

현재 SOTA 이미지 매팅 방법은 이러한 trimap이 입력으로 필요한데, 매우 좋은 성능에도 불구하고 trimap 관련 높은 인건비 때문에 주류 접근법이 되지 못했다.

 

MatAny에서는 SAM으로 개체의 마스크를 생성한 뒤 투명한 물체를 감지하기 위한 GroudingDINO, 매팅 모델인 ViTMatte를 활용한다. 추가 교육 X. (너무 날먹인데?)

 

 

 

Method

Preliminary: Trimap in Natural Image Matting

Prior 1. Matting algorithm은 trimap의 unknown 영역만 예측한다.

Alpha matte의 식은 다음과 같다.

Prior 2. 투명한 영역은 foreground가 될 수 없다. (e.g. 유리컵의 물)

 

Overall Architecture

먼저 OV detector로 주어진 텍스트에 대한 경계 상자를 생성하고 투명 개체를 감지

SAM으로 고품질 마스크 생성

두 모델 출력을 종합하여 pseudo trimap 생성

매팅 모델로 alpha matte 생성

 

Pseudo Trimap Generation

먼저 SAM으로 얻은 마스크에 각 객체를 불투명 처리하고 침식(erode), 팽창(dilate)을 적용하여 basic trimap 얻음

 

하지만 유리컵에 담긴 물 같은 경우 Prior.2와 충돌할 수 있다.

 

Large Language Model(LLM)로 일반적인 투명 개체 목록을 작성한 후 OV detector로 탐지, 투명 개체를 탐지하지 못하면 tb = tc, 투명 개체를 탐지하여 경계 상자 Bt를 얻으면

 

탐지하지 못한 투명 개체에 대해 클릭 한 번으로 투명 개체로 취급 가능

 

 

 

Experiments