首页 > 解决方案 > Google Speech API 字偏移时间戳不准确

问题描述

我有一些音频文件 (25 GB),我想为这些文件提供一项功能,让用户可以在播放音频时查看与音频同步的突出显示的单词。我一直在寻找 Google Speech API 来转录文件并提供单词偏移量的数据,这样我就不必手动执行此操作。但是,我注意到即使 API 能够正确准确地转录音频(每个单词的置信度超过 90%),偏移量也不一致。

什么会影响这些单词计时的准确性?一些观察:

  1. 我创建了一个“快速棕色狐狸跳过睡觉的懒狗”的音频文件。使用 Audacity 作为 16 位波形,采样率为 44100。API 转录正确,但单词计时完全丢失了整个单词。
  2. 我从 Audible(通过麦克风)创建了一个波形文件,单词偏移量非常准确。
  3. 我尝试了一个专业录制的阿拉伯语文件,虽然 API 转录准确,但单词时间差很远。

标签: google-cloud-speech

解决方案


推荐阅读