微软VALL-E X 零样本语音合成模型的开源实现
预训练模型现已向公众开放,供研究或应用使用
VALL-E X 是一个强大而创新的多语言文本转语音(TTS)模型,最初由微软发布。虽然微软最初在他们的研究论文中提出了该概念,但并未发布任何代码或预训练模型。我们认识到了这项技术的潜力和价值,复现并训练了一个开源可用的VALL-E X模型。
VALL-E X 配备有一系列尖端功能:
多语言 TTS: 可使用三种语言 – 英语、中文和日语 – 进行自然、富有表现力的语音合成。
零样本语音克隆: 仅需录制任意说话人的短短的 3~10 秒录音,VALL-E X 就能生成个性化、高质量的语音,完美还原他们的声音。
GitHub:https://github.com/Plachtaa/VALL-E-X
演示页面:https://plachtaa.github.io/