google-cloud-speech - Google Speech API 字偏移时间戳不准确
问题描述
我有一些音频文件 (25 GB),我想为这些文件提供一项功能,让用户可以在播放音频时查看与音频同步的突出显示的单词。我一直在寻找 Google Speech API 来转录文件并提供单词偏移量的数据,这样我就不必手动执行此操作。但是,我注意到即使 API 能够正确准确地转录音频(每个单词的置信度超过 90%),偏移量也不一致。
什么会影响这些单词计时的准确性?一些观察:
- 我创建了一个“快速棕色狐狸跳过睡觉的懒狗”的音频文件。使用 Audacity 作为 16 位波形,采样率为 44100。API 转录正确,但单词计时完全丢失了整个单词。
- 我从 Audible(通过麦克风)创建了一个波形文件,单词偏移量非常准确。
- 我尝试了一个专业录制的阿拉伯语文件,虽然 API 转录准确,但单词时间差很远。
解决方案
推荐阅读
- php - 如何在 PHP PDO for MySQL 中使用 VARBINARY 准备语句?
- python - 如何在 Python 中使用 StratifiedKFold 在 LogisticRegression 中进行参数调整?
- python - 将 1d numpy 数组与一个较小的数组“相乘”并将结果相加
- bash - Bash 用双引号用空格分隔值分割字符串
- grpc - 如何为 Node 编译 gRPC Proto 文件?
- java - 我想继续要求输入,直到提供有效输入表单扫描仪
- javascript - 需要点击绝对元素并触发2个点击事件:1个为绝对元素,另一个为它后面的元素
- mysql - 如果相关表中有数据,SQL n:m 查询返回 TRUE 或 FALSE
- python - Python pandas - 两个具有一些不同时间戳的df的时间序列合并,并用最后一个值重新填充缺失的时间戳
- javascript - 获取按钮单击的输入值以作为查询发送到 API