Abstract
훈련 시 훈련 데이터의 최대 길이보다 긴 위치 인코딩을 시뮬레이션하여 추론에 적용할 수 있는 Randomized Positional Encodings 제안
[Github]
[arXiv](2023/05/26 version v1)
Randomized Positional Encodings
훈련 중 최대 시퀀스 길이를 N이라 하자. 또한 N 보다 큰 임의의 L을 지정한다.
예를 들어, N = 5, L = 20.
그리고 훈련 시에 배치마다 L에서 N개의 인덱스를 샘플링하고 → [1, 4, 10, 11, 17]
이 위치 정보를 원래 위치 [1, 2, 3, 4, 5] 대신 사용한다.
이 방법을 사용하면 추론 시 N 초과 L 이하의 위치에 대해 적응할 수 있다.