Abstract
Deep networks는 modality 전반에 걸쳐 플라톤의 이상적인 현실 개념과 유사한 현실의 공유된 통계 모델을 향해 수렴되고 있다.
연구진은 그러한 표현을 platonic representation이라 명명하고 이에 대해 논의한다.
[Github]
[arXiv](2024/05/13 version v1)
Introduction
최신 AI system은 각 modality 처리를 위해 다른 아키텍처를 사용하는 대신 단일 모델로 통합되고 있으며 (e.g. GPT4-V) 점점 더 많은 분야에서 이러한 foundation model을 채택하고 있다.
The Platonic Representation Hypothesis:
이미지 표현 X, 텍스트 표현 Y는 공통된 현실 Z에 대한 투영이며, 따라서 이들은 하나의 표현으로 수렴될 것이다.
Representations are converging
표현 정렬에 대한 연구는 이전부터 많이 있었다.
Lenc & Vedaldi (2015)에서는 ImageNet과 Place-365에서 훈련된 각 모델의 레이어를 혼합했을 때 좋은 성능을 유지했으며,
Bansal et al. (2021)에서는 supervised, self-supervised 목표로 훈련된 각 모델이 서로 호환됨을 발견했고,
Moschellaet al. (2022)에서는 커널을 사용하여 서로 다른 언어에서 훈련된 모델의 인코더와 디코더를 호환시켰다.
더 고성능의/큰 모델일수록 더 큰 정렬을 보였다.
아래 그림을 보면 더 파란색(더 성능 좋음) 모델일수록 비슷한 표현을 가지고 있는 것을 볼 수 있다.
Mutual nearest-neighbor metric을 통해 독립적으로 훈련된 vision-language 모델 간의 정렬을 측정했는데, 이전 결과와 동일하게 좋은 성능의 모델일수록 더 잘 정렬되었다.
정렬이 좋은 모델일수록 downsteam task의 성능도 좋았다.
Why are representations converging?
모델 수렴의 이유를 설명하는 3가지 가설:
The Multitask Scaling Hypothesis
모델이 점점 더 많은 데이터를 학습하며 더 많은 문제를 해결해야 할수록 그것을 모두 충족하는 표현 공간은 점점 작아지고 좁은 표현 공간으로 수렴하는 압박을 받게 된다.
The Capacity Hypothesis
모든 학습 목표를 충족하는 global optima가 존재한다고 가정하면, 각 모델의 아키텍처와 상관없이 모델의 성능이 좋을수록 이 최적 지점으로 수렴될 것이다.
The Simplicity Bias Hypothesis
Deep networks는 복잡한 해결책보다 더 단순한 해결책을 찾으려는 편향이 있으며, 따라서 모델은 가능한 해결책 중 이 simple function에 가까운 해결책을 선택하게 된다.