首页 > 解决方案 > 在语音识别期间获得替代建议

问题描述

我想使用离线语音进行文本识别,主要是德语。

特别是,我想使用Mozilla DeepSpeech(百度 DeepSpeech 架构的 TensorFlow 实现),但我担心音频输入的音频质量不足以产生低错误率(WER - 单词错误率)。

(英文)示例:

说话者说“知道”,但引擎可能已经理解“流动”“展示”“开始”“知道”

我想[flow, show, go, know]从引擎中恢复过来,以便之后我可以手动决定哪个建议最适合。我怎样才能得到这个?

其他语音转文本引擎是否提供这种可能性?

标签: speech-recognitionspeech-to-textmozilla-deepspeech

解决方案


DeepSpeech 已更新版本。为了获得更好的推理结果,您需要遵循他们的说明和建议,例如,您的输入音频文件应为 16000 Hz、单声道和 16 位。音频重采样可能会影响推理的质量,请记住这一点。我个人使用SoX进行重采样,但还有其他选项samplerate此外,他们的论坛上有很多很好的建议。

有一个名为SpeechRecognition的 Python 库。他们有一些用于语音到文本的离线模型和在线 API 服务。


推荐阅读