Look, Listen and Learn

[arXiv](Current version v2)

Abstract

수많은 unlabelled video를 보고 듣고 무엇을 배울 수 있는가?

원시 비디오를 통해 visual, audio network를 처음부터 훈련하여 좋은 visual, audio 표현 얻기

이 논문의 목표는 unlabelled video를 보고 듣는 것 만으로 visual, audio 정보를 학습할 수 있는 시스템을 설계하는 것이다. 마치 인간 유아가 배우는 것처럼.

다음 그림과 같은 audio-visual correspondence(AVC) task를 통해 학습한다.

이 작업은 완전히 제약되지 않은 비디오에서 진행되기 때문에 상당히 어렵다. (잡음이나 다른 소리도 그대로 들어감.)

이 논문의 의미는 원시 비디오를 통한 visual-audio 표현 학습을 시도하였다는 데에 있으며, 상당히 옛날 논문이라 네트워크 구조는 의미 없으므로 생략.

정확도 75% 정도?

Sound classification. ~~인간은 왜 저거밖에 못 맞힘;~~

Compositional Visual Generation and Inference with Energy Based Models (0)	2024.01.02
Implicit Generation and Modeling with Energy-Based Models (0)	2024.01.02
Coincidence, Categorization, and Consolidation: Learning to Recognize Sounds with Minimal Supervision (0)	2023.12.15
Sketch Video Synthesis (0)	2023.12.10
Layered Neural Atlases for Consistent Video Editing (2)	2023.12.07
CLIPasso: Semantically-Aware Object Sketching (3)	2023.12.05