streaming - Google Speech to Text 的 25 秒延迟
问题描述
这是我在使用 Google Speech to Text Engine 时遇到的问题。我目前正在以 32kB 的块实时流式传输 16 位/16 kHz 音频。但是在发送音频和接收转录之间平均有 25 秒的延迟,这违背了实时转录的目的。
为什么会有这么高的延迟?
解决方案
Google Speech to Text文档建议使用 100 毫秒的帧大小来最小化延迟。
32kB *(8 位/1 字节)*(1 个样本/16 位)*(1 秒/16000 个样本)= 1 秒。
所以尝试发送 3.2kB 的块。这将平均延迟从 25 秒降至约 4 秒。
推荐阅读
- python - Python嵌套列表:如何打印特定元素并附加到每个子列表
- reactjs - “gatsby-source-contentful”的插件选项无效
- r-markdown - 使用源自定义编织按钮
- list - Haskell 递归
- r - 如何使R在存储时显示19位数字?
- reactjs - 如何使用 Ionic React 存储可以跨页面和组件访问和修改的变量?
- python - C++ .so 的 Python 包装器仅在将代码复制到 docker 映像时才可用,而不是在按卷挂载时可用?
- c - 队列的外部类型定义
- git - 在 github 的 master 分支中管理多个项目
- r - show_modal_spinner 在 Rshiny 中生成输出之前立即消失