首页 > 解决方案 > Google Speech to Text 的 25 秒延迟

问题描述

这是我在使用 Google Speech to Text Engine 时遇到的问题。我目前正在以 32kB 的块实时流式传输 16 位/16 kHz 音频。但是在发送音频和接收转录之间平均有 25 秒的延迟,这违背了实时转录的目的。

为什么会有这么高的延迟?

标签: streamingspeech-to-textgoogle-cloud-speech

解决方案


Google Speech to Text文档建议使用 100 毫秒的帧大小来最小化延迟。

32kB *(8 位/1 字节)*(1 个样本/16 位)*(1 秒/16000 个样本)= 1 秒。

所以尝试发送 3.2kB 的块。这将平均延迟从 25 秒降至约 4 秒。


推荐阅读