논문 리뷰/Vision Transformer (64) 썸네일형 리스트형 Activating More Pixels in Image Super-Resolution Transformer (HAT) 논문 리뷰 5월 9일 공개된 Activating More Pixels in Image Super-Resolution Transformer Github Paper (arxiv) Abstract 트랜스포머 기반 방법은 이미지 초해상도와 같은 저수준의 비전 작업에서 인상적인 성능을 보여주었다. 그러나 이러한 네트워크는 속성 분석을 통해 제한된 공간 범위의 입력 정보만 활용할 수 있다는 것을 발견했다. 이는 트랜스포머의 잠재력이 기존 네트워크에서 여전히 충분히 활용되지 못하고 있음을 시사한다. 재구성을 위해 더 많은 입력 픽셀을 활성화하기 위해 새로운 Hybrid Attention Transformer(HAT)를 제안한다. 그것은 channel attention과 self attention을 결합하여 그들의 보완적 장점을.. Understanding The Robustness in Vision Transformers (FAN) 논문 리뷰 4월 26일 공개된 Understanding The Robustness in Vision Transformers (비전 트랜스포머의 견고성 이해) Github Paper (arixiv) Abstract 최근의 연구는 Vision Transformer(ViT)가 다양한 손상(=corruption)에 강한 견고성을 보인다는 것을 보여준다. 이러한 특성은 부분적으로 self attention 메커니즘에 기인하지만, 여전히 체계적인 이해가 부족하다. 본 연구에서는 강력한 표현을 학습하는 데 있어 self attention의 역할을 살펴본다. 본 연구는 ViT에서의 흥미로운 특성에 의해 동기 부여되는데, 이는 self attention이 개선된 중간 수준의 표현을 통해 견고성을 촉진할 수 있음을 보여준다. 또한 .. Temporally Efficient Vision Transformer(TeViT) 논문 리뷰 며칠 전 공개된 Temporally Efficient Vision Transformer(TeViT) Gihub Paper PDF (arxiv) Abstract 비디오 클립 내의 중요한 시간 정보를 효과적이고 효율적으로 모델링하기 위해 video instance segmentation(VIS)을 위한 Temporally Efficient Vision Transformer(TeViT)를 제안한다. 이전의 transformer-based VIS 방법과 달리, transformer backbone과 query-based video instance segmentation head를 포함하여 거의 convolution-free에 가깝다. 백본 단계에서 초기 시간 맥락 융합을 위한 거의 피라미터가 없는 messeng.. Neighborhood Attention Transformer (NAT)논문 리뷰 4월 14일 공개된 Neighborhood Attention Transformer Github Paper PDF (arxiv) Abstract 이미지 분류와 다운스트림 작업 모두에서 잘 작동하는 효율적이고 정확하며 확장 가능한 계층적 transformer인 NAT(Neighborhood Attention Transformer)를 제시한다. 각 쿼리에 대한 수신 필드를 가장 가까운 인접 픽셀로 현지화하는 간단하고 유연한 attention 메커니즘인 NA(Neighborhood Attention)를 기반으로 한다. 또한 FLOPs와 메모리 사용량은 swin transformer의 shifted window attention과 동일하지만 제약은 적으며 NA에는 국소 유도 편향이 포함되어 있어 픽셀 이동과 같은.. 이전 1 ··· 3 4 5 6 다음