본문 바로가기

논문 리뷰/etc.

Look, Listen and Learn

[Github]

[arXiv](Current version v2)

 

 

 

Abstract

수많은 unlabelled video를 보고 듣고 무엇을 배울 수 있는가?

원시 비디오를 통해 visual, audio network를 처음부터 훈련하여 좋은 visual, audio 표현 얻기

 

 

 

Introduction

이 논문의 목표는 unlabelled video를 보고 듣는 것 만으로 visual, audio 정보를 학습할 수 있는 시스템을 설계하는 것이다. 마치 인간 유아가 배우는 것처럼.

 

 

 

Audio-visual correspondence learning

다음 그림과 같은 audio-visual correspondence(AVC) task를 통해 학습한다.

이 작업은 완전히 제약되지 않은 비디오에서 진행되기 때문에 상당히 어렵다. (잡음이나 다른 소리도 그대로 들어감.)

 

Network architecture

이 논문의 의미는 원시 비디오를 통한 visual-audio 표현 학습을 시도하였다는 데에 있으며, 상당히 옛날 논문이라 네트워크 구조는 의미 없으므로 생략.

 

 

 

Results

정확도 75% 정도?

 

Sound classification. 인간은 왜 저거밖에 못 맞힘;