首页 > 解决方案 > 为什么谷歌的语音命令数据集的采样率为 16kHz

问题描述

谷歌发布了语音命令数据集。我看到所有音频文件的采样率为 16kHz。这意味着 8kHz 及以上的任何信息都是不可靠的(人类听觉范围为 20Hz 到 20kHz)。这对于语音识别非常关键,因为(不是大多数但)很多重要数据都在 8khz 到 20khz 的范围内,丢失这意味着您的语音识别的准确性和可靠性会降低。

为什么 google 选择了 16kHz?我错过了什么吗?

谢谢你。

标签: speech-recognitionspeech-to-texttensorflow-datasets

解决方案


这对于语音识别非常关键,因为(不是大多数但)很多重要数据都在 8khz 到 20khz 的范围内

实际上并非如此,许多实验表明使用更高的采样率几乎没有任何改进。这就是为什么每个人都使用 16khz。


推荐阅读