본문 바로가기

논문 리뷰/etc.

(62)
Iteratively Trained Interactive Segmentation 사용자 클릭을 반복적으로 입력하여 학습하는 segmentation framework Github arXiv Abstract 클릭 형태의 사용자 입력을 컨볼루션 네트워크에 대한 입력으로 사용하는 대화형 object segmentation 시스템을 개발. 학습하는 동안 현재 예측된 segmentation의 오류를 기반으로 반복적으로 클릭을 추가하는 반복 학습 전략 제안. Introduction 본 논문에서는 클릭을 사용자 입력으로 관심 객체에 픽셀을 추가하거나 제거하는 대화형 segmentation에 중점을 둔다. 실제 사용자 클릭 데이터셋을 모으기가 힘들기 때문에 에뮬레이트된 클릭 패턴 사용. 본 논문의 기여 클릭 기반 대화형 segmentation 프레임워크 ITIS(Iteratively Trained ..
Hard Prompts Made Easy: Gradient-Based Discrete Optimization for Prompt Tuning and Discovery Hard prompt 최적화 Github arXiv Abstract Hard prompt 최적화 및 자동 생성 Introduction Hard prompt는 다른 모델에도 적용 가능하다는 이식성에서 장점이 있다. Hard prompt의 최적화를 통해 hard prompt의 장점과 soft prompt의 장점인 용이성과 자동화를 결합한다. 텍스트 최적화를 위해 기존에 사용되던 gradient reprojection 체계를 기반으로 하여 hard prompt를 학습하기 위한 간단한 체계 제안 위 최적화 방법을 hard prompt 학습에 사용하여 prompt를 생성하는 일반적인 도구를 제공 학습된 prompt 체계가 해석 가능성을 향상하며 다른 텍스트 최적화 체계를 능가한다는 것을 보임 Prompt 최적화란..
Measuring the Intrinsic Dimension of Objective Landscapes 네트워크의 고유 차원 측정 arXiv Abstract신경망은 많은 수의 피라미터를 사용한다. 하지만 실제로 필요한 피라미터는 몇 개 일까? 네트워크를 차원이 천천히 증가하는 하위공간에서 훈련시킴으로써 질문에 답한다. 많은 문제는 생각보다 작은 고유 차원을 가지고 있으며, 주어진 데이터셋의 고유 차원은 다른 모델군 간에 거의 차이가 없다. 고유 차원을 통해 문제의 난이도를 정량적으로 비교할 수 있고, 어떤 경우에는 네트워크가 100배 이상 압축된다. Introduction역전파에 의한 피라미터 수정은 고정된 공간을 탐색하는 방법일 뿐, 데이터셋과 네트워크 아키텍처가 지정될 때 전체 환경이 완전히 결정된다. 위 그림과 같은 3차원의 경우 우리는 직관적으로 이해할 수 있지만, 낮은 차원의 직관을 높은 차원으로..
ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders 순수 Conv로만 이루어낸 ConvNeXt + MAE arXiv Github Abstract ConvNet에 masked autoencoder(MAE)와 같은 자체 지도 학습을 도입했을 때, 성능이 낮아졌다. 본 논문에서는 ConNeXt 아키텍처에 fully convolutional masked autoencoder framework를 도입하고 채널 간 feature competition을 강화하기 위해 Global Response Normalization (GRN) layer를 추가한다. Introduction MAE는 애초에 transformer sequence 처리에 최적화되어 있기 때문에 ConvNet에 적용했을 때 성능이 좋지 않고, 따라서 Conv용 MAE를 설계하는 것이 본 논문의 목표이다...
Towards Robust Monocular Depth Estimation: Mixing Datasets for Zero-shot Cross-dataset Transfer (MiDaS) 다양한 깊이 추정 데이터셋에 통합적으로 적용 가능한 손실함수 개발. 3D movies dataset 제안. 요약: 다양한 기준을 가진 데이터셋을 정렬하여 혼합 훈련 Multi-log-scale에서 x,y 축의 gradient를 포착하는 loss term arXiv Github Abstract Zero-shot monocular depth estimation을 위한 새로운 데이터 소스 제안. 다양한 깊이 추정 데이터셋에 통합적으로 적용 가능한 손실함수 개발. Introduction 본 논문의 목적은 다양한 환경에서 강력한 monocular depth estimation 모델을 훈련하는 방법을 조사하는 것이다. 이를 위해 다양한 감지 양식으로 얻은 데이터에 대해 훈련 가능한 손실함수를 개발하고 다양한 기존 ..
More ConvNets in the 2020s : Scaling up Kernels Beyond 51 × 51 using Sparsity 논문 리뷰 커널 분해와 동적 희소 컨볼루션을 이용해 커널 크기를 51x51까지 확장 Github Abstract ViT의 발전에 맞서 최근의 몇 가지 컨볼루션 모델은 큰 커널로 반격하여 매력적인 성능과 효율성을 보여준다. 그들 중 하나인 RepLKNet은 커널 크기를 31x31까지 확장했지만, Swin Transformer와 같은 고급 ViT의 확장 추세에 비하면 성능이 포화된다. 본 논문에서는 그보다 더 큰 극한 컨볼루션 훈련을 테스트한다. 희소성을 이용해 커널을 51x51까지 확장한 순수 CNN 아키텍처인 Sparse Large Kernel Network(SLaK)를 제안한다. Introduction ViT에서 영감을 받아, 일부 최근 연구는 CNN에 큰 커널을 도입했지만 큰 커널은 학습하기가 매우 어렵다. 본..
The ArtBench Dataset Artwork 생성 벤치마킹을 위한 새로운 데이터셋 ArtBench-10의 간략한 소개입니다. Github Abstract Artwork 생성을 벤치마킹하기 위한 균형적인 클래스, 고품질, 깔끔한 주석이 달린 표준화된 최초의 데이터셋인 ArtBench-10을 소개한다. 10개의 독특한 스타일의 예술 작품 60,000개의 이미지로 구성되어 있으며, 스타일당 5,000개의 훈련 이미지와 1,000개의 테스트 이미지를 가지고 있다. 또한 32x32, 256x256, 원본 크기로 총 3가지 버전이 있다. The ArtBench-10 Dataset Limitation of Existing Artwork Datasets 이전의 artwork 데이터셋들에는 여러가지 문제가 있었다. Long-tail 분포 이미지 품질..
Can CNNs Be More Robust Than Transformers? 논문 리뷰 지금까지 transformer의 견고성은 self attention에서 나온다고 알고 있었지만 attention 없이 순수 CNN으로 transformer의 구조를 흉내내어 보았더니 CNN 쪽이 더 견고성이 좋았다는 내용이다 Github Arxiv Can CNNs Be More Robust Than Transformers? The recent success of Vision Transformers is shaking the long dominance of Convolutional Neural Networks (CNNs) in image recognition for a decade. Specifically, in terms of robustness on out-of-distribution samples, ..
When does dough become a bagel? Analyzing the remaining mistakes on ImageNet 논문 리뷰 5월 9일 공개된 When does dough become a bagel? Analyzing the remaining mistakes on ImageNet 논문은 ImageNet의 오류를 분석한 논문이다. Paper(arxiv) (다 쓰고 보니까 mistake와 error가 거의 구분이 없는데, 논문에서도 딱히 기준은 없는지 너무 중구난방으로 써서 잘 모르겠고, 대부분은 논문의 표기를 따랐음.) Abstract 컴퓨터 비전에서 가장 많이 벤치마킹된 데이터 세트 중 하나인 ImageNet에서 오류의 long-tail에 대한 통찰력을 제공하기 위해 일부 상위 모델이 저지르는 실수를 수동으로 검토하고 분류한다. 본 연구에서는 ImageNet의 multi-label 하위 집합 평가에 중점을 두는데, 여기서 SO..
Thin-Plate Spline Motion Model for Image Animation (TPS) 논문 리뷰 3월 27일 공개된 Thin-Plate Spline Motion Model for Image Animation Github Arxiv Abstract 최근의 연구는 사전 지식을 사용하지 않고 비지도 방법을 통해 임의의 개체에 대해 모션 전송을 수행하려고 시도한다. 그러나 소스와 주행(=driving) 이미지의 객체 사이에 큰 포즈 간격이 있을 때의 비지도 방법은 현재 여전히 중요한 과제로 남아 있다. 본 논문에서는 이러한 문제를 극복하기 위해 새로운 end-to-end 비지도 모션 전송 프레임워크를 제안한다. 보다 유연한 optical flow를 생성하기 위해 thin-plate spline 모션 추정을 제안하는데, 이는 소스 이미지의 feature 맵을 주행 이미지의 feature 도메인으로 왜곡시킨다..
Neural 3D Scene Reconstruction with the Manhattan-world Assumption 논문 리뷰 5월 5일 공개된 Neural 3D Scene Reconstruction with the Manhattan-world Assumption Project Page 3D 복원 분야는 익숙하지 않아 요약할 수가 없어서 글이 좀 길 수 있습니다... Abstract 이 논문은 멀티 뷰 이미지에서 3D 실내 장면(=Scene)을 재구성하는 문제를 다룬다. 이전의 많은 작품들은 질감(=texture)이 있는 물체에서 인상적인 재구성 결과를 보여주었지만, 여전히 실내 장면에서 흔히 볼 수 있는 질감이 낮은 평면 영역을 다루는 데 어려움을 겪고 있다. 이 문제를 해결하기 위한 접근법은 멀티뷰 스테레오 기반 방법의 깊이 맵 추정에 평면 제약 조건을 통합하는 것이지만, 뷰별 평면 추정과 깊이 최적화는 효율성과 멀티뷰 일관..
StyleGAN-Human 논문 리뷰 4월 25일 공개된 StyleGAN-Human: A Data-Centric Odyssey of Human Generation Project Page StyleGAN-Human: A Data-Centric Odyssey of Human Generation Unconditional human image generation is an important task in vision and graphics, which enables various applications in the creative industry. Existing studies in this field mainly focus on "network engineering" such as designing new components and objecti..