首页 > 解决方案 > 谷歌的文本到语音(WaveNet)质量会随着长文本而下降

问题描述

将 API 与瑞典语语音一起使用sv-SE-Wavenet-A,似乎音频质量会随着文本的变长而降低。

短文:

Det ter sig logiskt att man gått över until tvångsfinansiering av en kanal som under året alltså tappade sex procent av tittartiden. 直到 slut kommer ingen titta, men alla kommer ändå tvingas betala。

长文本(粗体 = 上面的短文本):

SVT backade sex procent - endast en tredjedel tittas - tvingas betala ändå Preliminära siffror från mätföretaget MMS visar på att vuxendagiset SVT tappade sex procent av sin tittartid under 2018. Nu tittas det på endast en dryg tredjedel av titn på SVT, men alla i Sverige tvingas ändå betala 轿车 årsskiftet。SVT。SVT:s tittarsiffror tappade 直到 34.9% i så kallad tittartidsandel。Det tvångsfinansierade vuxendagiset har alltså bara en dryg tredjedel av tittartiden, men samtliga med inkomst i Sverige måste likväl betala för detta。Siffrorna fån MMS är preliminära och SVT ska ha 34.9% av tittartiden, TV4-gruppen 31.9%, Discovery Networks-gruppen 11.9%, och Nordic Entertainment Group 11.6%。Discovery inkluderar Kanal 5 och 北欧娱乐 TV3。Det ter sig logiskt att man gått över until tvångsfinansiering av en kanal som under året alltså tappade sex procent av tittartiden. 直到 slut kommer ingen titta, men alla kommer ändå tvingas betala。Socialism baserar sig på tvång närfolk inte frivilligt gör det som socialisterna vill åstakomma。Det är en ren skam att de borgerliga partierna var med och drev igenom tvångsfinansieringen av det konsekvenslösa vuxendagiset。Lämplig åtgärd är att istället koda SVT, så får de som vill betala för detta göra det ochövriga 拖鞋。Så kan också SVT falla bort i glömskan。Tills detta sker kommer förstås bloggen bevaka SVT:s felsteg, men kom ihåg att anmälningar till granskningsnämnden ej ska göras då det legitimerar ett sjukt och helt konsekvenslöst meningslöst system。SVT är ett aktiebolag, som besitter beskattningsrätt av svenskafocket。Nedanstående kommentarer är inte en del av det redaktionella innehållet och användare ansvarar själva for sina kommentarer。Se även kommentarsreglerna, inclusive listan med kommentatorer som automatiskt kommer raderas på grund av brott mot dessa。Genom att kommentera samtycker du till att din kommentar, tidsstämpel, profillänk och 化名 sparas av Googles Blogger-system så länge det är related, dvs så länge blogginlägget är publicerat。

API 请求

const textToSpeech = require('@google-cloud/text-to-speech')
const client = new textToSpeech.TextToSpeechClient()
client.synthesizeSpeech({
  input: text,
  voice: {
    languageCode: 'sv-SE',
    ssmlGender: 'FEMALE',
    name: 'sv-SE-Wavenet-A',
  },
  audioConfig: {
    audioEncoding: 'MP3',
  },
})

API 的结果

音频比较首先播放我发送短文本时得到的结果。然后它播放相同的文本,但从我发送长文本时得到的结果中删除。最后,它同时播放它们。

这是一个错误还是预期的?使用 en-US 或 en-GB 语音时,我根本没有注意到质量下降。

我注意到瑞典语语音使用的 naturalSampleRateHertz 与所有其他语音不同,也许这可能会导致这种情况?

标签: google-cloud-platformtext-to-speechgoogle-text-to-speech

解决方案


这可能与使用MP3 作为编码格式有关,而不是与其他语言的任何采样率差异有关。由于 MP3 是一种有损格式,因此预计可能会丢失一些质量;短文件和长文件之间的差异可能与使用的MP3 编码算法有关。

我已经检查了语音合成 API,并且“sv-SE-Wavenet-A”语音似乎使用了 24000 的 naturalSampleRateHertz,因为我检查过的所有 wavenet(所有 en-US-Wavenet 语音都在 24000以及)。

我建议您将 audioEncoding 标志更改为其他一些编码格式,例如“OGG_OPUS”,这将产生更好的音频质量。

  audioConfig: {
    audioEncoding: 'OGG_OPUS',
  },

如果 MP3 格式是必须的,那么您可以更改您身边的格式,这样您就可以选择您认为在 MP3 编码中方便的参数,以确保最大的音频质量,同时压缩音频文件。


推荐阅读