首页 > 解决方案 > Django 中的 Google TTS:使用 base64 字符串在 Javascript 中创建音频文件

问题描述

我目前在我的一个 Django 视图中使用Google 的 TTS Python API “synthesize_text”函数。

def synthesize_text(text):
    """Synthesizes speech from the input string of text."""
    from google.cloud import texttospeech
    client = texttospeech.TextToSpeechClient()

    input_text = texttospeech.types.SynthesisInput(text=text)

    # Note: the voice can also be specified by name.
    # Names of voices can be retrieved with client.list_voices().
    voice = texttospeech.types.VoiceSelectionParams(
        language_code='en-US',
        ssml_gender=texttospeech.enums.SsmlVoiceGender.FEMALE)

    audio_config = texttospeech.types.AudioConfig(
        audio_encoding=texttospeech.enums.AudioEncoding.MP3)

    response = client.synthesize_speech(input_text, voice, audio_config)

    # The response's audio_content is binary.
    # Removing this because I do not care about writing the audio file
    # ----------------------------------------------------
    '''
    with open('output.mp3', 'wb') as out:
        out.write(response.audio_content)
        print('Audio content written to file "output.mp3"')
    '''
    # ----------------------------------------------------
    # instead return the encoded audio_content to decode and play in Javascript
    return response.audio_content


def my_view(request):
    test_audio_content = synthesize_text('Test audio.')
    return render('my_template.html', {'test_audio_content': test_audio_content})

我对“synthesize_text”函数所做的唯一更改是返回 audio_content 而不是将其写入音频文件。这是因为我不关心存储文件,而只想使用 Javascript 在我的模板中播放它。Google 声称他们在 base64 中对 audio_content 进行编码:“Cloud Text-to-Speech API 允许您将单词和句子转换为自然人类语音的 base64 编码音频数据。然后您可以通过以下方式将音频数据转换为可播放的音频文件,如 MP3解码 base64 数据。” 因此,我尝试使用此处建议的以下代码创建和播放音频文件:

<!-- my_template.html -->

<script>
var audio_content = "{{ test_audio_content }}";
var snd = new Audio("data:audio/mp3;base64," + audio_content);
console.log(snd);
snd.play();
</script>

但我收到以下错误:

Uncaught (in promise) DOMException: Failed to load because no supported source was found.

我注销了audio_content,它以b&#39;ÿóDÄH.. 开头,不确定是否是base64。我还尝试通过执行以下操作来解码 audio_content:

var decoded_content = window.atob(audio_content);

这也给了我一个错误,声称它不是base64。

标签: javascriptdjangogoogle-cloud-platformbase64google-text-to-speech

解决方案


从你的例子:

The response's audio_content is binary

这意味着您需要先将结果编码为 base64,然后才能使用它:

import base64
...
return base64.b64encode(response.audio_content).decode('ascii'))

那么这应该完全按照您的预期与您的 JS 片段一起使用。


推荐阅读