text-to-speech - 创建文本到语音变体的最佳方法
问题描述
我需要至少 3/4 种不同的 tts 声音,但不幸的是我只有一种声音。
这是因为我只有一个意大利神经声音(迭戈),其他都是标准声音,质量要差得多。
最终目标是为至少 3/4 人创建配音,但我无法使用某些确切的配音。
出于这个原因,我喜欢创建一些变体,由我拥有的唯一一个神经声音开始,它给人的印象是其他人的声音,所有这一切看起来都不自然。
实际上,我有 Adobe Audition、Audacity、Ircam Trax、ffmpeg,除此之外,我可以将 SSML 与 API 一起使用(在本例中为 Microsoft Azure)。
我不知道有什么效果以及在什么情况下使用它而不损坏声音。
简而言之,我问如果我能获得更好的结果,使用我拥有的软件或其他软件的最佳方法是什么。
谢谢 !
解决方案
你用什么语言?如果您使用英语,我相信您可以找到超过 3-4 个神经语音。有 en-US、en-GB、en-CA、en-AU 神经声音,听起来都很自然。
您还可以使用 SSML 调整音高以使声音听起来不同。
如果您想创建不同的声音,请使用您的语音数据(或您的语音天赋)尝试 customvoice.ai。
或者,您正在寻找的特定“差异”是什么?
推荐阅读
- continuous-deployment - 生成随机发布名竹
- sql - 使用多个子查询优化访问查询
- c# - 使用 GetAsync 调用我的 API 永远不会返回响应,即使 API 确实如此
- python - 如果是整数,如何返回 int,同时忽略浮点数和字符串
- python - dir 函数未显示所有包内容
- reactjs - 如何在本机反应中滚动抽屉导航器内的屏幕选项
- docker - 容器初始化导致 \"rootfs_linux.go:58: 挂载到 rootfs 导致不是目录
- c++ - 跟踪移动到 Windows 上的回收站的进度
- google-cloud-functions - Firebase 函数图片下载 URL 问题
- typescript - vuejs + vuetify + ssr + typescript:错误:使用{runInNewContext:false}时捆绑导出应该是一个函数