본문 바로가기

논문 리뷰/etc.

Measuring the Intrinsic Dimension of Objective Landscapes

네트워크의 고유 차원 측정 
 
arXiv
 
 

Abstract

신경망은 많은 수의 피라미터를 사용한다. 하지만 실제로 필요한 피라미터는 몇 개 일까? 
네트워크를 차원이 천천히 증가하는 하위공간에서 훈련시킴으로써 질문에 답한다.
 
많은 문제는 생각보다 작은 고유 차원을 가지고 있으며, 주어진 데이터셋의 고유 차원은 다른 모델군 간에 거의 차이가 없다.
고유 차원을 통해 문제의 난이도를 정량적으로 비교할 수 있고, 어떤 경우에는 네트워크가 100배 이상 압축된다.
 
 
 

Introduction

역전파에 의한 피라미터 수정은 고정된 공간을 탐색하는 방법일 뿐, 데이터셋과 네트워크 아키텍처가 지정될 때 전체 환경이 완전히 결정된다.

object landscape

 
위 그림과 같은 3차원의 경우 우리는 직관적으로 이해할 수 있지만, 낮은 차원의 직관을 높은 차원으로 외삽하면 신뢰할 수 없는 결론에 이를 수 있다.
 
Local optima에 대한 우리의 직관과 달리, 고차원의 local optima는 valley가 아니라 saddle point이다.
또한 고차원에서 의외로 단순하게 단조로운 감소를 보여주는 경우가 많았다.
 
본 논문에서는 무작위 d(<D) 차원 공간에서 최적화하고 차원을 점차 늘리면서 solution이 처음 나타나는 차원을 찾을 수 있으며 이를 고유 차원이라 한다.
 
 
 

Defining and Estimating Intrinsic Dimension

기호 정리

  • θD = D차원의 피라미터 벡터
  • θ0D = 초깃값
  • θ*D = 학습 완료된 최종 피라미터 벡터

D = 1000이고 첫 번째 100개의 요소의 합이 1, 두 번째 100개의 요소의 합이 2가 되는 식으로 10개의 오차를 최소화하도록 요구되는 toy optimization 문제가 있다고 해보자.
 

이 문제에서 전체 공간은 크지만 고유 차원 dint는 10이다.

 

Measuring Intrinsic Dimension via Random Subspace Training

Random subspace optimization은 복잡한 문제에 대해 dint를 측정하거나 근사하는 방법을 제공한다.

 

P는 D x d의 projection matrix이다.

P, θ0D는 무작위로 생성되고 동결되며 θd는 0으로 초기화된다.

θd에 대해 gradient를 계산한다.

 

3차원인 θD의 최적화를 2차원으로 투영한 모습.

 
앞에서 제시한 toy optimization 문제의 고유 차원을 찾는 모습.

 

Details and Conventions

이후 섹션에서는 특정 신경망 문제에 대한 고유 차원을 측정한다.
 

원래의 solution(θD의 경사하강)과 통계적으로 구분되지 않는 solution을 dint100이라 하자.

하지만 실용적이고 유용한 기준선을 위해 dint90을 측정한다.

 
 
 

Results and Discussion

MNIST

MNIST에서 훈련된 FC classifier는 레이어 크기가 784-200-200-10으로 총 피라미터는 199210개이다.

dint90은 약 750에서 측정됨.

 
기존 모델의 90%의 성과를 얻기 위해 무려 0.4%의 피라미터만 사용되었으며, 네트워크의 훈련과 저장에도 매우 효율적이다.
 
Introduction에서 말했듯이, object landscape는 데이터셋과 네트워크 아키텍처에 따라 결정된다.
따라서 위 결과는 MNIST가 750의 고유 차원을 가지는 것이 아니고, MNIST & FC classifier의 조합이 그렇다는 것이다.


 

다양한 크기의 FC classifier에 대한 위 실험을 보면 피라미터가 24배까지 증가하는 동안 고유 차원은 최대 1.3배 밖에 차이 나지 않는다.
 
피라미터가 많을수록 중복성이 커지며, 따라서 네트워크가 커지더라도 고유 차원은 거의 변하지 않는다는 것을 알 수 있다.


하위 공간에서 학습하는 것과 단순히 작은 네트워크로 옮겨 학습하는 것이 어떤 차이가 있는가?

왼쪽 : FC, 오른쪽 : Conv

 
컨볼루션 네트워크는 MNIST에서 FC 네트워크보다 더 적은 고유 차원을 가지며, 작은 네트워크와의 격차도 더 적다.
 
Minimum description length에 따라 MNIST에서는 컨볼루션이 더 나은 방법이라는 가정을 세울 수도 있다.