Ge Zhu1,2* Juan-Pablo Caceres2 Zhiyao Duan1 Nicholas J. Bryan2
1University of Rochester, Rochester, NY
2Adobe Research
*Work done during an internship at Adobe Research
Diffusion-based audio and music generation models commonly generate music by constructing an image representation of audio (e.g., a mel-spectrogram) and then converting it to audio using a phase reconstruction model or vocoder. Typical vocoders, however, produce monophonic audio at lower resolutions (e.g., 16-24 kHz), which limits their effectiveness. We propose MusicHiFi --- an efficient high-fidelity stereophonic vocoder. Our method employs a cascade of three generative adversarial networks (GANs) that convert low-resolution mel-spectrograms to audio, upsamples to high-resolution audio via bandwidth expansion, and upmixes to stereophonic audio. Compared to previous work, we propose 1) a unified GAN-based generator and discriminator architecture and training procedure for each stage of our cascade, 2) a new fast, near cycle-consistent bandwidth extension module, and 3) a new fast cycle-consistent mono-to-stereo module that ensures the preservation of monophonic content in the output. We evaluate our proposed approach using both objective and subjective listening tests and find our approach comparable or better audio quality better spatialization control and significantly faster inference speed compared to past work.
@article{zhu2024musichifi,
title={MusicHiFi: Fast High-Fidelity Stereo Vocoding},
author={Zhu, Ge and Caceres, Juan-Pablo and Duan, Zhiyao and Bryan, Nicholas J.},
year={2024},
archivePrefix={arXiv},
primaryClass={cs.SD},
}
Vocoded from Generated Mel-spectrograms |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Vocoding |
Bandwidth Extension |
Mono-to-stereo |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Vocoded from FMA samples |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Vocoding |
Bandwidth Extension |
Mono-to-stereo |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Generated |
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Ground Truth |
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Generated |
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Ground Truth |
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Generated |
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Ground Truth |
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Generated |
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Ground Truth |
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Generated |
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Ground Truth |
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Generated |
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Ground Truth |
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Generated |
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Ground Truth |
|
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||