본문 바로가기

논문 리뷰/etc.

NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models

[Project Page]

[arXiv](2024/03/05 version v1)

 

 

Abstract

음성의 다양한 속성을 각 하위 공간으로 인수분해하여 개별적으로 생성하는 factorized diffusion TTS model인 NaturalSpeech 3

 

 

NaturalSpeech 3

Overall Architecture

FACodec, factorized diffusion model로 구성됨.

 

FACodec for Attribute Factorization

FACodec은 인코더, 디코더, 음색 추출기, 3개의 factorized vector quantizer로 구성된다.

 

Attribute Disentanglement

  • Information Bottleneck: 인코더 출력을 저차원 공간에 투영하고 양자화하여 불필요한 정보를 제거하고 정보 분리를 촉진한다.
  • Supervision: 위 그림에 표시된 대로 각 속성에 대해 보조 손실을 계산한다.
  • Gradient Reversal: 원하지 않는 정보를 분리하기 위해 gradient reversal을 적용한다. Gradient reversal을 이용한 속성 분리는 BaseTTS에서도 활용한 바 있다.
  • Detail Dropout: Acoustic detail 공간은 감독이 없어 (acoustic detail이라는 개념 자체가 모호하다.) prosody, content 정보가 일부 보존되는 경향이 있다. 또한 직관적으로 생각해 보면 detail 없이 prosody, content, timbre 만으로도 음성을 재구성할 수 있어야 한다. 따라서 훈련 중에 이를 무작위로 dropout 하여 얽힘을 해제한다. (detail에 섞여 있는 다른 정보에 영향을 받지 않도록 훈련되는 방식인가??)

 

Factorized Diffusion Model

Non-AR 방식이기 때문에 duration을 먼저 생성, 직관적으로 detail이 마지막에 생성되어야 하며, 음색은 FACodec으로 prompt에서 직접 얻을 수 있기 때문에 명시적으로 생성하지 않는다.

 

 

 

Experiments and Results