논문 리뷰/etc.

The Platonic Representation Hypothesis

Ostin 2024. 5. 22. 15:10

Abstract

Deep networks는 modality 전반에 걸쳐 플라톤의 이상적인 현실 개념과 유사한 현실의 공유된 통계 모델을 향해 수렴되고 있다. 

연구진은 그러한 표현을 platonic representation이라 명명하고 이에 대해 논의한다.

 

[Project Page]

[Github]

[arXiv](2024/05/13 version v1)

 

 

 

Introduction

최신 AI system은 각 modality 처리를 위해 다른 아키텍처를 사용하는 대신 단일 모델로 통합되고 있으며 (e.g. GPT4-V) 점점 더 많은 분야에서 이러한 foundation model을 채택하고 있다.

 

The Platonic Representation Hypothesis:

이미지 표현 X, 텍스트 표현 Y는 공통된 현실 Z에 대한 투영이며, 따라서 이들은 하나의 표현으로 수렴될 것이다.

 

 

 

 

Representations are converging

표현 정렬에 대한 연구는 이전부터 많이 있었다.

 

Lenc & Vedaldi (2015)에서는 ImageNet과 Place-365에서 훈련된 각 모델의 레이어를 혼합했을 때 좋은 성능을 유지했으며,

Bansal et al. (2021)에서는 supervised, self-supervised 목표로 훈련된 각 모델이 서로 호환됨을 발견했고,

Moschellaet al. (2022)에서는 커널을 사용하여 서로 다른 언어에서 훈련된 모델의 인코더와 디코더를 호환시켰다.


더 고성능의/큰 모델일수록 더 큰 정렬을 보였다.

 

아래 그림을 보면 더 파란색(더 성능 좋음) 모델일수록 비슷한 표현을 가지고 있는 것을 볼 수 있다.


Mutual nearest-neighbor metric을 통해 독립적으로 훈련된 vision-language 모델 간의 정렬을 측정했는데, 이전 결과와 동일하게 좋은 성능의 모델일수록 더 잘 정렬되었다.


정렬이 좋은 모델일수록 downsteam task의 성능도 좋았다.

 

 

 

Why are representations converging?

모델 수렴의 이유를 설명하는 3가지 가설:

 

The Multitask Scaling Hypothesis

모델이 점점 더 많은 데이터를 학습하며 더 많은 문제를 해결해야 할수록 그것을 모두 충족하는 표현 공간은 점점 작아지고 좁은 표현 공간으로 수렴하는 압박을 받게 된다.

 

The Capacity Hypothesis

모든 학습 목표를 충족하는 global optima가 존재한다고 가정하면, 각 모델의 아키텍처와 상관없이 모델의 성능이 좋을수록 이 최적 지점으로 수렴될 것이다.

 

The Simplicity Bias Hypothesis

Deep networks는 복잡한 해결책보다 더 단순한 해결책을 찾으려는 편향이 있으며, 따라서 모델은 가능한 해결책 중 이 simple function에 가까운 해결책을 선택하게 된다.