NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models

[arXiv](2024/03/05 version v1)

Abstract

음성의 다양한 속성을 각 하위 공간으로 인수분해하여 개별적으로 생성하는 factorized diffusion TTS model인 NaturalSpeech 3

FACodec, factorized diffusion model로 구성됨.

FACodec은 인코더, 디코더, 음색 추출기, 3개의 factorized vector quantizer로 구성된다.

Attribute Disentanglement

Information Bottleneck: 인코더 출력을 저차원 공간에 투영하고 양자화하여 불필요한 정보를 제거하고 정보 분리를 촉진한다.
Supervision: 위 그림에 표시된 대로 각 속성에 대해 보조 손실을 계산한다.
Gradient Reversal: 원하지 않는 정보를 분리하기 위해 gradient reversal을 적용한다. Gradient reversal을 이용한 속성 분리는 BaseTTS에서도 활용한 바 있다.
Detail Dropout: Acoustic detail 공간은 감독이 없어 (acoustic detail이라는 개념 자체가 모호하다.) prosody, content 정보가 일부 보존되는 경향이 있다. 또한 직관적으로 생각해 보면 detail 없이 prosody, content, timbre 만으로도 음성을 재구성할 수 있어야 한다. 따라서 훈련 중에 이를 무작위로 dropout 하여 얽힘을 해제한다. (detail에 섞여 있는 다른 정보에 영향을 받지 않도록 훈련되는 방식인가??)

Non-AR 방식이기 때문에 duration을 먼저 생성, 직관적으로 detail이 마지막에 생성되어야 하며, 음색은 FACodec으로 prompt에서 직접 얻을 수 있기 때문에 명시적으로 생성하지 않는다.

Is Flash Attention Stable? (0)	2024.05.13
Dynamic Typography: Bringing Text to Life via Video Diffusion Prior (0)	2024.04.22
Adding NVMe SSDs to Enable and Accelerate 100B Model Fine-tuning on a Single GPU (Fuyou) (0)	2024.03.18
Beyond A*: Better Planning with Transformers via Search Dynamics Bootstrapping (SearchFormer) (0)	2024.03.07
YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information (0)	2024.03.07
BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data (0)	2024.02.23