본문 바로가기

논문 리뷰/etc.

(62)
Online normalizer calculation for softmax [Github] [arXiv](Current version v2) Abstract 더 적은 메모리 액세스로 softmax 계산 Original softmax 일반적인 softmax: 벡터 당 총 3번의 메모리 액세스가 발생한다. (정규화 항 dV 계산, 출력값 계산, 저장) 하지만 현재 대부분의 딥러닝 작업에서는 지수함수의 오버플로우 위험 때문에 safe softmax를 사용한다. 하지만 safe softmax는 최댓값을 구하는 과정이 추가되어 총 4번의 메모리 액세스가 발생한다. Online normalizer calculation 온라인으로 최댓값과 정규화 항을 업데이트하는 방식으로 메모리 액세스를 3번으로 줄일 수 있다. (이 논문에 있는 수학은 증명이 어렵지 않으니 한 번 써 보면서 읽는 걸 추천..
Towards An End-to-End Framework for Flow-Guided Video Inpainting (E2FGVI) Flow-based end-to-end video inpainting framework [arXiv] [Github] [Video Demo] Abstract 3가지 학습 가능한 모듈을 통한 End-to-End framework for Flow-Guided Video Inpainting( E2FGVI ) Introduction 일반적인 flow-based video inpainting 작업은 flow completion, pixel propagation, content hallucination 단계로 나뉘어 있다. 지금까지의 flow-based method들은 이전 단계의 오류를 바로잡을 방법이 없어 오류가 누적되고 GPU 가속을 받을 수 없는 수동 작업이 많이 포함돼있어 비효율적임. E2FGVI는 각 단..
Flow-edge Guided Video Completion (FGVC) Flow edge를 먼저 완성, non-local flow connection 도입 [Project Page] [arXiv] [Github] Abstract 새로운 flow-based video completion algorithm 제시 모션의 가장자리를 먼저 완성하여 flow completion을 안내 시간적으로 멀리 떨어진 프레임에 non-local flow connection을 도입하여 비디오 콘텐츠 전파 Introduction 현재까지 inpainting에서 가장 성공적인 방법은 flow 기반 모델. 하지만 기존 모델은 날카로운 가장자리를 잘 합성하지 못함. 기존 모델의 또 다른 한계는 시간적으로 먼 프레임에 대한 연결이 약하고 색상을 직접 전파하여 현실에서의 다양한 색상 노이즈(노출, 그림자, ..
Deep Flow-Guided Video Inpainting Optical flow를 통한 video inpainting 방법 [Project Page] [arXiv] [Github] Abstract Deep Flow Completion network를 이용한 flow-guided video inpainting Introduction 인페인팅을 위해 RGB 픽셀을 채우는 대신 flow 기반 접근 방법 제시. 영상의 대부분의 개체는 추적 가능한 동작을 가지므로 시간적 일관성이 자연스럽게 유지됨. Optical flow를 채우기 위해 DFC-Net(Deep Flow Completion Network) 설계. Coarse-to-fine refinement: 3개의 하위 네트워크(DFC-S)를 쌓아 단계적으로 복구 Temporal coherence maintenance:..
Generative Image Inpainting with Contextual Attention Contextual attention으로 image inpainting 개선 [arXiv] [Github] Abstract 먼 위치에서 정보를 빌리거나 복사하는 데 있어서 convolution의 비효율성 때문에 inpainting 작업에서 종종 왜곡된 구조나 흐릿한 질감이 생성된다. 본 논문에서는 주변 feature를 명시적으로 참조할 수 있는 생성 모델 기반 접근 방식을 제안한다. Introduction CNN 기반 방법은 boundary artifact, distorted structure, blurry texture를 생성하는 경우가 많음. 이는 먼 거리의 픽셀 간의 모델링을 하는 데에 있어서 CNN의 비효율성에 기인함. 일단 재구성 손실로 학습된 CNN으로 처리한 뒤 contextual atten..
Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow (Rectified Flow) 직선 경로를 통해 분포를 전송하는 ODE 모델 Github arXiv Abstract 경험적으로 관찰된 두 분포 π0, π1 간의 전송을 위해 신경 ODE 모델을 학습하는 간단한 접근 방식인 rectified flow 제안 Introduction 대부분의 비지도 학습의 요점은 어떤 방식으로든 두 분포에 속한 점들 사이의 의미 있는 대응 관계를 찾는 것이다. 최근에 SDE를 이용한 확산 모델이 이미지 품질과 다양성 모두에서 좋은 성과를 이루고 있지만 계산 비용이 높다. Rectified flow는 직선 경로를 통해 분포를 전송하는 ODE 모델이며 직선이 두 점 사이의 최단 경로이기 때문에 확산 모델의 높은 계산 비용을 해소할 수 있다. 이전에 얻은 rectified flow에서 시뮬레이션된 데이터를 사용하..
Simple and Controllable Music Generation (MusicGen) 주어진 코드북 패턴에 따라 단일 transformer로 음악 생성. Github arXiv https://twitter.com/honualx/status/1668652005487779840(신기함) 트위터에서 즐기는 Alexandre Défossez “Official MusicGen now also supports extended generation (different implem, same idea). Go to our colab to test it. And keep an eye on @camenduru for more cool stuff! Of course, I tested it with an Interstellar deep remix as lo-fi with organic samples :) twi..
High Fidelity Neural Audio Compression (EnCodec) 오디오 코덱 신경망. SoundStream 개선 버전. Github arXiv Abstract 신경망을 활용한 최첨단 실시간, 고충실도 오디오 코덱인 EnCodec 소개. Introduction 압축 모델의 주요 문제는 두 가지이다. 첫째, 모델은 일반적이고 광범위한 신호를 나타낼 수 있어야 한다. -크고 다양한 훈련 세트, 판별기 네트워크를 사용하여 해결 둘째, 컴퓨팅 시간과 크기를 효율적으로 줄여야 한다. -CPU 코어에서 실행 가능하도록 모델 제한, 잔차 벡터 양자화(SoundStream) 채택. Model Encoder & Decoder Architecture 기본적으로 아키텍처는 시퀀스 모델링을 위해 최종 Conv1D 직전에 추가한 LSTM을 제외하면 SoundStream과 동일하고 고충실도의 ..
SoundStream: An End-to-End Neural Audio Codec 오디오 코덱 신경망 Github arXiv Abstract 신경망을 통한 오디오 코덱인 SoundStream 제안. 벡터 양자화와 적대적 훈련을 통하여 고품질 오디오 콘텐츠 생성 가능. Introduction 적대적 및 재구성 손실로 end-to-end 훈련되는 신경망 오디오 코덱인 SoundStream 제안 Residual vector quantizer, quantizer dropout 기술 제안 Model Encoder architecture 나도 음향? 데이터를 잘 몰라서 직접 데이터 크기를 비교해 봤는데, 일단 인코더 입력 시 크기는 (1, 64000). (배치 크기 제외) 인코더의 각 블록을 통과한 후의 크기 1D 컨볼루션으로 연산된다. 디코더의 출력은 당연히 그 반대 또한 입력 데이터에 추가로..
ImageBind: One Embedding Space To Bind Them All Image-paired data로 모든 양식 통합하기 Github arXiv Abstract 6가지 다른 양식에 걸쳐 joint 임베딩을 학습하는 접근 방식인 ImageBind 제안. 훈련에 모든 pair data가 필요하지 않으며 image-paired data만 있으면 충분하다. Introduction 해변의 이미지는 파도 소리, 모래의 질감, 바람을 떠올리게 하거나 시에 영감을 줄 수도 있다. 이미지의 이 binding 속성은 이미지와 관련된 모든 감각 경험과 정렬하여 시각적 기능을 학습할 수 있는 많은 소스를 제공한다. 본 논문에서는 여러 유형의 image-paired 데이터를 활용하여 단일 공유 표현 공간을 학습하는 ImageBind를 제시한다. 이미지의 binding 속성을 활용하여 각 양식의..
A Method for Animating Children's Drawings of the Human Figure 아이들의 그림을 움직이게 하기 Project Page Github arXiv Abstract 아이들의 그림을 애니메이션화 하는 누구나 사용할 수 있을 만큼 간단하고 직관적인 시스템 제안. 또한 Amateur Drawings Dataset 소개. Introduction 이 시스템은 Figure detection Segmentation masking Pose estimation/rigging Animation 4단계로 구성된다. 기존 사진 모델과 펜 드로잉의 차이로 인해 모델을 fine tuning 해야 하고 훈련 세트 크기와 성공률 사이의 관계를 탐구하기 위한 일련의 실험과 지각 연구 수행. +Amateur Drawings Dataset Method 경계 상자 예측 Segmentation mask를 통해 ..
Reviving Iterative Training with Mask Guidance for Interactive Segmentation 클릭 기반 interative segmentation, ITIS의 개선 버전 Github arXiv Abstract Segmentation mask를 사용하는 클릭 기반 대화형 segmentation을 위한 간단한 feed-forward 모델 제안. 완전히 새로운 개체를 분할할 수 있을 뿐만 아니라 외부 마스크로 시작하여 수정할 수도 있다. Introduction 대화형 segmentation은 다양한 방법들이 있지만 클릭 기반 방법이 유연하고 상호작용에 가장 적절하다. 클릭 기반 대화식 segmentation의 확장을 제안. 반복 훈련 절차를 통해 네트워크가 이전 단계의 마스크를 인식하도록 하여 안정성을 향상한다. 또한 정교한 마스크가 있는 다양한 대규모 데이터셋이 성능에 중요한 역할을 함. Relat..