python - 在google gcp Speech to text api中检测语音数字的最佳设置是什么
问题描述
我试图从使用谷歌语音录制到文本中检测用户在语音中说出的数字。用python编写的配置文件如下
config = speech.RecognitionConfig(
encoding=speech.RecognitionConfig.AudioEncoding.LINEAR16,
sample_rate_hertz=44100,
language_code="en-IN",
speech_contexts = [{"phrases":["$00V_CLASS_FULLPHONENUMBER"]}]
)
如何提高数字检测的准确性。是否还有其他可以添加的参数。在许多情况下,语音中的第一个数字也没有被检测到。我怎样才能避免这种情况。
解决方案
推荐阅读
- python-3.x - 如何为通过 K-means 获得的集群绘制带有工具提示的 3-D 图形
- lazy-evaluation - 计算在按名称调用和按需要调用下执行的中缀操作
- python - 根据 pyspark RDD 检查列表中的项目
- wpf - 2021 年的 WPF FolderBrowserDialog 中是否需要所有者窗口?
- python - 网页抓取问题,无法点击元素
- swift - Swift:文字隐式类型转换
- html - css/html:保持框在页面上的绝对位置
- c++ - 调用结构函数中的数组更改不起作用
- sequelize.js - 运行 supertest 时出错:测试完成后无法登录。您是否忘记在测试中等待异步内容?
- spring-boot - 无法连接到 docker 容器 localhost 连接被拒绝