매우 간편한 interactive image matting
Abstract
추가 교육 없이 SAM(Segment Anything Model)으로 윤곽선을 예측하고 OV(openvocabulary) detector로 투명도를 예측한 뒤 alpha matte를 생성하는 interactive matting algorithm인 MatAny 제안
Introduction
Trimap은 이미지를 foreground, background, unknown으로 나눈 hint map이다.
현재 SOTA 이미지 매팅 방법은 이러한 trimap이 입력으로 필요한데, 매우 좋은 성능에도 불구하고 trimap 관련 높은 인건비 때문에 주류 접근법이 되지 못했다.
MatAny에서는 SAM으로 개체의 마스크를 생성한 뒤 투명한 물체를 감지하기 위한 GroudingDINO, 매팅 모델인 ViTMatte를 활용한다. 추가 교육 X. (너무 날먹인데?)
Method
Preliminary: Trimap in Natural Image Matting
Prior 1. Matting algorithm은 trimap의 unknown 영역만 예측한다.
Alpha matte의 식은 다음과 같다.
Prior 2. 투명한 영역은 foreground가 될 수 없다. (e.g. 유리컵의 물)
Overall Architecture
먼저 OV detector로 주어진 텍스트에 대한 경계 상자를 생성하고 투명 개체를 감지
SAM으로 고품질 마스크 생성
두 모델 출력을 종합하여 pseudo trimap 생성
매팅 모델로 alpha matte 생성
Pseudo Trimap Generation
먼저 SAM으로 얻은 마스크에 각 객체를 불투명 처리하고 침식(erode), 팽창(dilate)을 적용하여 basic trimap 얻음
하지만 유리컵에 담긴 물 같은 경우 Prior.2와 충돌할 수 있다.
Large Language Model(LLM)로 일반적인 투명 개체 목록을 작성한 후 OV detector로 탐지, 투명 개체를 탐지하지 못하면 tb = tc, 투명 개체를 탐지하여 경계 상자 Bt를 얻으면
탐지하지 못한 투명 개체에 대해 클릭 한 번으로 투명 개체로 취급 가능
Experiments
'논문 리뷰 > Vision Transformer' 카테고리의 다른 글
Tag2Text: Guiding Vision-Language Model via Image Tagging (0) | 2023.06.19 |
---|---|
Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection (0) | 2023.06.19 |
Matting Anything (MAM) (0) | 2023.06.15 |
Segment Anything in High Quality (HQ-SAM) (0) | 2023.06.10 |
Personalize Segment Anything Model with One Shot (PerSAM) (4) | 2023.06.09 |
Inpaint Anything: Segment Anything Meets Image Inpainting (0) | 2023.04.19 |