[Github]
[arXiv](Current version v2)
Abstract
수많은 unlabelled video를 보고 듣고 무엇을 배울 수 있는가?
원시 비디오를 통해 visual, audio network를 처음부터 훈련하여 좋은 visual, audio 표현 얻기
Introduction
이 논문의 목표는 unlabelled video를 보고 듣는 것 만으로 visual, audio 정보를 학습할 수 있는 시스템을 설계하는 것이다. 마치 인간 유아가 배우는 것처럼.
Audio-visual correspondence learning
다음 그림과 같은 audio-visual correspondence(AVC) task를 통해 학습한다.
이 작업은 완전히 제약되지 않은 비디오에서 진행되기 때문에 상당히 어렵다. (잡음이나 다른 소리도 그대로 들어감.)
Network architecture
이 논문의 의미는 원시 비디오를 통한 visual-audio 표현 학습을 시도하였다는 데에 있으며, 상당히 옛날 논문이라 네트워크 구조는 의미 없으므로 생략.
Results
정확도 75% 정도?
Sound classification. 인간은 왜 저거밖에 못 맞힘;
'논문 리뷰 > etc.' 카테고리의 다른 글
Compositional Visual Generation and Inference with Energy Based Models (0) | 2024.01.02 |
---|---|
Implicit Generation and Modeling with Energy-Based Models (0) | 2024.01.02 |
Coincidence, Categorization, and Consolidation: Learning to Recognize Sounds with Minimal Supervision (0) | 2023.12.15 |
Sketch Video Synthesis (0) | 2023.12.10 |
Layered Neural Atlases for Consistent Video Editing (2) | 2023.12.07 |
CLIPasso: Semantically-Aware Object Sketching (3) | 2023.12.05 |