[Github]
[arXiv](2024/02/20 version v1)
Abstract
확산 모델을 통해 neural network parameter를 생성
Nerual Network Diffusion
Parameter autoencoder
Preparing the data for training the autoencoder
Autoencoder의 훈련 데이터를 수집하기 위해 특정 모델을 처음부터 훈련하고 마지막 epoch의 checkpoints를 저장한다.
데이터로 사용할 모델 피라미터의 하위 집합 S = {s1, ..., sK}를 제외한 나머지 피라미터는 고정한다.
대규모 모델의 경우 fine-tuning 결과를 저장한다.
Training parameter autoencoder
S를 벡터 V = {v1, ..., vK}로 펼치고 autoencoder는 이 벡터를 재구성하는 방법을 학습하며 견고성을 위해 random noise를 도입한다.
일반적인 autoencoder와 동일하게 ground truth와의 MSE로 훈련된다.
Parameter generation
훈련 목표도 LDM과 동일.
피라미터들은 대부분 공간적 연관성이 없기 때문에 2D conv를 1D conv로 교체한다.
Experiments
구현 세부 정보는 논문 참고.
실제로 이 방법을 최신 모델에 적용해서 사용할 수 있을 거라는 생각은 처음부터 없었다. 그냥 새로운 시도에 의미가 있다고 봐야 할 듯.
Ablation