首页 > 解决方案 > 在google gcp Speech to text api中检测语音数字的最佳设置是什么

问题描述

我试图从使用谷歌语音录制到文本中检测用户在语音中说出的数字。用python编写的配置文件如下

config = speech.RecognitionConfig(
        encoding=speech.RecognitionConfig.AudioEncoding.LINEAR16,
        sample_rate_hertz=44100,
        language_code="en-IN",
        speech_contexts = [{"phrases":["$00V_CLASS_FULLPHONENUMBER"]}]        
         )

如何提高数字检测的准确性。是否还有其他可以添加的参数。在许多情况下,语音中的第一个数字也没有被检测到。我怎样才能避免这种情况。

标签: pythongoogle-cloud-platform

解决方案


推荐阅读