Grounding DINO 1.5: Advance the "Edge" of Open-Set Object Detection

Abstract

Grounding DINO에서 탐지 성능, 추론 속도 개선

[Github]

[arXiv](2024/05/16 version v1)

Model Training

Grounding DINO 1.5 Pro

1. 더 큰 vision backbone 사용: ViT-L

2. 훈련 중 negative sample의 비율을 높임

3. Grounding-20M이라고 하는 고품질 grounding dataset을 제작하여 훈련함

Grounding DINO 1.5 Edge

Image backbone은 feature enhancer에 multi-scale feature를 제공하는데, 저해상도 feature는 enhancer의 계산량만 가중시킬 뿐 많은 정보가 존재하지 않으므로 P5-level feature만 제공하고 P3, P4-level의 feature는 cross-scale feature fusion module을 이용해 통합한다. 추가로 각 feature의 self-attention 간소화.

Image backbone으로 효율적인 EfficientViT-L1 채택.

Model Evaluation

저작자표시 (새창열림)

'논문 리뷰 > Vision Transformer' 카테고리의 다른 글

Depth Anything V2 (0)	2024.06.26
CatLIP: CLIP-level Visual Recognition Accuracy with 2.7x Faster Pre-training on Web-scale Image-Text Data (0)	2024.04.26
Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction (VAR) (0)	2024.04.08
ViTAR: Vision Transformer with Any Resolution (2)	2024.04.01
Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation (SD3-Turbo, LADD) (0)	2024.03.21
Scaling Rectified Flow Transformers for High-Resolution Image Synthesis (Stable Diffusion 3) (2)	2024.03.15

Ostin X

Grounding DINO 1.5: Advance the "Edge" of Open-Set Object Detection

Abstract

Model Training

Grounding DINO 1.5 Pro

Grounding DINO 1.5 Edge

Model Evaluation

'논문 리뷰 > Vision Transformer' 카테고리의 다른 글

티스토리툴바

Grounding DINO 1.5: Advance the "Edge" of Open-Set Object Detection

Abstract

Model Training

Grounding DINO 1.5 Pro

Grounding DINO 1.5 Edge

Model Evaluation

'논문 리뷰 > Vision Transformer' 카테고리의 다른 글

'논문 리뷰/Vision Transformer' Related Articles

티스토리툴바