speech-recognition - 为什么谷歌的语音命令数据集的采样率为 16kHz
问题描述
谷歌发布了语音命令数据集。我看到所有音频文件的采样率为 16kHz。这意味着 8kHz 及以上的任何信息都是不可靠的(人类听觉范围为 20Hz 到 20kHz)。这对于语音识别非常关键,因为(不是大多数但)很多重要数据都在 8khz 到 20khz 的范围内,丢失这意味着您的语音识别的准确性和可靠性会降低。
为什么 google 选择了 16kHz?我错过了什么吗?
谢谢你。
解决方案
这对于语音识别非常关键,因为(不是大多数但)很多重要数据都在 8khz 到 20khz 的范围内
实际上并非如此,许多实验表明使用更高的采样率几乎没有任何改进。这就是为什么每个人都使用 16khz。
推荐阅读
- python - 通过完全关闭来重新启动 http 服务器
- javascript - ES6 中使用 (pattern, s) 作为字符串的二进制模式匹配
- c# - 计算树中的节点
- django - 尝试用答案填充子表单问题字段的问题
- docker - pwa-studio docker 配置 dev-environmet
- apache-kafka - 将不同时间出现的记录加入 Kafka 流
- android - 列表视图可以处理太多项目吗?
- flask - 烧瓶 - 数据库条目的简单删除 - 缺少位置参数
- c# - 如何在 MSTests 中忽略
- javascript - 当 catch 返回错误时重新启动 then() 块