본문 바로가기

논문 리뷰/etc.

The Platonic Representation Hypothesis

Abstract

Deep networks는 modality 전반에 걸쳐 플라톤의 이상적인 현실 개념과 유사한 현실의 공유된 통계 모델을 향해 수렴되고 있다. 

연구진은 그러한 표현을 platonic representation이라 명명하고 이에 대해 논의한다.

 

[Project Page]

[Github]

[arXiv](2024/05/13 version v1)

 

 

 

Introduction

최신 AI system은 각 modality 처리를 위해 다른 아키텍처를 사용하는 대신 단일 모델로 통합되고 있으며 (e.g. GPT4-V) 점점 더 많은 분야에서 이러한 foundation model을 채택하고 있다.

 

The Platonic Representation Hypothesis:

이미지 표현 X, 텍스트 표현 Y는 공통된 현실 Z에 대한 투영이며, 따라서 이들은 하나의 표현으로 수렴될 것이다.

 

 

 

 

Representations are converging

표현 정렬에 대한 연구는 이전부터 많이 있었다.

 

Lenc & Vedaldi (2015)에서는 ImageNet과 Place-365에서 훈련된 각 모델의 레이어를 혼합했을 때 좋은 성능을 유지했으며,

Bansal et al. (2021)에서는 supervised, self-supervised 목표로 훈련된 각 모델이 서로 호환됨을 발견했고,

Moschellaet al. (2022)에서는 커널을 사용하여 서로 다른 언어에서 훈련된 모델의 인코더와 디코더를 호환시켰다.


더 고성능의/큰 모델일수록 더 큰 정렬을 보였다.

 

아래 그림을 보면 더 파란색(더 성능 좋음) 모델일수록 비슷한 표현을 가지고 있는 것을 볼 수 있다.


Mutual nearest-neighbor metric을 통해 독립적으로 훈련된 vision-language 모델 간의 정렬을 측정했는데, 이전 결과와 동일하게 좋은 성능의 모델일수록 더 잘 정렬되었다.


정렬이 좋은 모델일수록 downsteam task의 성능도 좋았다.

 

 

 

Why are representations converging?

모델 수렴의 이유를 설명하는 3가지 가설:

 

The Multitask Scaling Hypothesis

모델이 점점 더 많은 데이터를 학습하며 더 많은 문제를 해결해야 할수록 그것을 모두 충족하는 표현 공간은 점점 작아지고 좁은 표현 공간으로 수렴하는 압박을 받게 된다.

 

The Capacity Hypothesis

모든 학습 목표를 충족하는 global optima가 존재한다고 가정하면, 각 모델의 아키텍처와 상관없이 모델의 성능이 좋을수록 이 최적 지점으로 수렴될 것이다.

 

The Simplicity Bias Hypothesis

Deep networks는 복잡한 해결책보다 더 단순한 해결책을 찾으려는 편향이 있으며, 따라서 모델은 가능한 해결책 중 이 simple function에 가까운 해결책을 선택하게 된다.