논문 리뷰/etc.
Look, Listen and Learn
Ostin
2023. 12. 15. 10:45
[Github]
[arXiv](Current version v2)
Abstract
수많은 unlabelled video를 보고 듣고 무엇을 배울 수 있는가?
원시 비디오를 통해 visual, audio network를 처음부터 훈련하여 좋은 visual, audio 표현 얻기
Introduction
이 논문의 목표는 unlabelled video를 보고 듣는 것 만으로 visual, audio 정보를 학습할 수 있는 시스템을 설계하는 것이다. 마치 인간 유아가 배우는 것처럼.
Audio-visual correspondence learning
다음 그림과 같은 audio-visual correspondence(AVC) task를 통해 학습한다.
이 작업은 완전히 제약되지 않은 비디오에서 진행되기 때문에 상당히 어렵다. (잡음이나 다른 소리도 그대로 들어감.)
Network architecture
이 논문의 의미는 원시 비디오를 통한 visual-audio 표현 학습을 시도하였다는 데에 있으며, 상당히 옛날 논문이라 네트워크 구조는 의미 없으므로 생략.
Results
정확도 75% 정도?
Sound classification. 인간은 왜 저거밖에 못 맞힘;