Randomized Positional Encodings Boost Length Generalization of Transformers
Abstract훈련 시 훈련 데이터의 최대 길이보다 긴 위치 인코딩을 시뮬레이션하여 추론에 적용할 수 있는 Randomized Positional Encodings 제안 [Github][arXiv](2023/05/26 version v1) Randomized Positional Encodings 훈련 중 최대 시퀀스 길이를 N이라 하자. 또한 N 보다 큰 임의의 L을 지정한다.예를 들어, N = 5, L = 20. 그리고 훈련 시에 배치마다 L에서 N개의 인덱스를 샘플링하고 → [1, 4, 10, 11, 17]이 위치 정보를 원래 위치 [1, 2, 3, 4, 5] 대신 사용한다. 이 방법을 사용하면 추론 시 N 초과 L 이하의 위치에 대해 적응할 수 있다.