首页 > 解决方案 > 如何使用 google Speech-to-Text 获得给定音频文件的“暂停”标记?

问题描述

下面给出了音频文件的 google Speech-to-Text 输出。

results {
  alternatives {
    transcript: "extremely grateful for the "
    confidence: 0.911402702331543
    words {
      start_time {
      }
      end_time {
        nanos: 600000000
      }
      word: "extremely"
    }
    words {
      start_time {
        nanos: 600000000
      }
      end_time {
        nanos: 900000000
      }
      word: "grateful"
    }
    words {
      start_time {
        nanos: 900000000
      }
      end_time {
        seconds: 1
        nanos: 100000000
      }
      word: "for"
    }
    words {
      start_time {
        seconds: 1
        nanos: 100000000
      }
      end_time {
        seconds: 1
        nanos: 300000000
      }
      word: "the"
    }
    words {
      start_time {
        seconds: 1
        nanos: 300000000
      }
}

我想得到单词之间的停顿。下面,“非常”这个词从 0 开始,到 nanos:600000000 结束。下一个单词“grateful”的开始时间是 Nanos: 600000000。但是当我们说话的时候,单词之间是有间隔的。我想要单词之间间隔持续时间的时间戳。

有没有办法使用 google Speech-to-Text 获取这些信息?
如果没有,请提出一些替代方案来完成同样的任务。

标签: speech-recognitionspeech-to-textgoogle-speech-apigoogle-cloud-speech

解决方案


推荐阅读