본문 바로가기

논문 리뷰/etc.

Reviving Iterative Training with Mask Guidance for Interactive Segmentation

클릭 기반 interative segmentation, ITIS의 개선 버전

 

Github

arXiv

 

 

Abstract

Segmentation mask를 사용하는 클릭 기반 대화형 segmentation을 위한 간단한 feed-forward 모델 제안.

완전히 새로운 개체를 분할할 수 있을 뿐만 아니라 외부 마스크로 시작하여 수정할 수도 있다.

 

 

 

Introduction

대화형 segmentation은 다양한 방법들이 있지만 클릭 기반 방법이 유연하고 상호작용에 가장 적절하다.

 

클릭 기반 대화식 segmentation의 확장을 제안.

반복 훈련 절차를 통해 네트워크가 이전 단계의 마스크를 인식하도록 하여 안정성을 향상한다.

또한 정교한 마스크가 있는 다양한 대규모 데이터셋이 성능에 중요한 역할을 함.

 

 

 

Related Work

ITIS : 사용자 클릭을 반복적으로 입력하여 학습하는 segmentation framework

 

 

 

Proposed Method

Revising Network Architecture

DeepLabV3+ 및 HRNet+OCR 아키텍처를 백본으로 사용


Clicks encoding

거리 변환 인코딩보다 로컬에만 영향을 미치는 디스크 인코딩이 더 좋음.


Feeding encoded clicks to a backbone

기존 입력인 RGB 채널에 추가로 클릭 인코딩을 받기 위한 여러 가지 방법들이 있는데,

 

일반적인 방법은 단순히 첫 번째 컨볼루션의 입력 채널을 늘리는 것이다. (중간)

다른 논문에서 제안한 방법 중 하나로는 백본에 입력하기 전에 채널을 정제하는 것이다. (왼쪽)

본 논문에서 제안하는 방법은 RGB와 클릭 인코딩을 출력 크기가 같은 다른 컨볼루션으로 받고 합치는 것. (오른쪽)

 

이러한 방법은 백본 네트워크 가중치에 영향을 주지 않는다는 장점이 있다.


Iterative Sampling Strategy

ITIS의 클릭 샘플링 절차를 채택하지만 두 가지 수정사항이 있다.

  • 잘못 표시된 영역에 침식 연산을 적용하여 더 적은 면적에서 샘플링
  • 각 배치에서 클릭을 개별적으로 시뮬레이션하고 최대 반복 횟수를 N으로 제한(ITIS에서는 클릭 정보를 계속 저장해 놓고 사용하다가 일정 확률로 리셋)

Incorporating Masks From Previous Steps

6번째 채널로 이전 단계의 segmentation mask를 전달함.


Normalized Focal Loss

Focal loss 설명

Focal loss의 가중치의 총합은 다음과 같은데, (M̂은 네트워크의 출력, [i,j]는 픽셀 좌표)

학습이 많이 진행되면 틀리는 경우가 거의 없어져 가중치가 매우 낮아질 것임을 알 수 있다.

 

따라서 다음과 같은 정규화된 focal loss 제안:

학습이 진행되어 가중치 총합이 낮아지면 역수항의 값이 높아져 학습률이 유지된다.

 

 

 

 

Dataset for Interactive Segmentation

대충 데이터셋의 품질과 다양성이 중요하다고 함.

 

 

Experiments