首页 > 解决方案 > 将识别的语音与已知文本进行比较的最佳方法

问题描述

给定我希望用户阅读(或多或少准确)的已知手稿(文本),识别用户在手稿中的进度的最佳方法是什么?

当我在 iOS 上寻找特定的解决方案时,我也对更一般的答案感兴趣。

iOS 提供了一个名为Speech的语音识别框架,我可以使用它来识别任何语音。我目前的方法是使用该框架的字符串结果将它们与手稿进行匹配。但是,在我看来,这似乎有相当多的开销,并且当我第一次向语音识别器提供预期的单词以便它“知道”要听什么时,它会节省资源并提高精度。

例如,当手稿中的下一个单词是“fish”时,我不需要语音识别器在整个英语词典中搜索与录制的音频最匹配的单词——我只需要得到一个概率值多么可能就是用户刚才说的“鱼”。

我认为这与关键词发现非常相似,只是我不仅发现了几个关键词,而且发现了整个手稿中的单词。

不幸的是,我无法在 iOS 上找到这样的 API。有没有比上述方法更好的方法来实现这种“语音跟踪”?

标签: iosspeech-recognitionspeech-to-textsfspeechrecognizerkeyword-spotting

解决方案


但是,在我看来,这似乎有相当多的开销,并且当我第一次向语音识别器提供预期的单词以便它“知道”要听什么时,它会节省资源并提高精度。

也许会,但语音框架无法让你这样做,所以你不能。


推荐阅读