首页 > 解决方案 > 创建文本到语音变体的最佳方法

问题描述

我需要至少 3/4 种不同的 tts 声音,但不幸的是我只有一种声音。

这是因为我只有一个意大利神经声音(迭戈),其他都是标准声音,质量要差得多。

最终目标是为至少 3/4 人创建配音,但我无法使用某些确切的配音。

出于这个原因,我喜欢创建一些变体,由我拥有的唯一一个神经声音开始,它给人的印象是其他人的声音,所有这一切看起来都不自然。

实际上,我有 Adob​​e Audition、Audacity、Ircam Trax、ffmpeg,除此之外,我可以将 SSML 与 API 一起使用(在本例中为 Microsoft Azure)。

我不知道有什么效果以及在什么情况下使用它而不损坏声音。

简而言之,我问如果我能获得更好的结果,使用我拥有的软件或其他软件的最佳方法是什么。

谢谢 !

标签: text-to-speechweb-audio-apimicrosoft-cognitiveaudio-processing

解决方案


你用什么语言?如果您使用英语,我相信您可以找到超过 3-4 个神经语音。有 en-US、en-GB、en-CA、en-AU 神经声音,听起来都很自然。

您还可以使用 SSML 调整音高以使声音听起来不同。

如果您想创建不同的声音,请使用您的语音数据(或您的语音天赋)尝试 customvoice.ai。

或者,您正在寻找的特定“差异”是什么?


推荐阅读