speech-recognition - 在语音识别期间获得替代建议
问题描述
我想使用离线语音进行文本识别,主要是德语。
特别是,我想使用Mozilla DeepSpeech(百度 DeepSpeech 架构的 TensorFlow 实现),但我担心音频输入的音频质量不足以产生低错误率(WER - 单词错误率)。
(英文)示例:
说话者说“知道”,但引擎可能已经理解“流动”或“展示”或“开始”或“知道”。
我想[flow, show, go, know]
从引擎中恢复过来,以便之后我可以手动决定哪个建议最适合。我怎样才能得到这个?
其他语音转文本引擎是否提供这种可能性?
解决方案
DeepSpeech 已更新版本。为了获得更好的推理结果,您需要遵循他们的说明和建议,例如,您的输入音频文件应为 16000 Hz、单声道和 16 位。音频重采样可能会影响推理的质量,请记住这一点。我个人使用SoX进行重采样,但还有其他选项samplerate。此外,他们的论坛上有很多很好的建议。
有一个名为SpeechRecognition的 Python 库。他们有一些用于语音到文本的离线模型和在线 API 服务。
推荐阅读
- python - 从 python pandas 中的数据框中计算不同的单词
- java - 对象引用变量重新赋值
- charts - Flutter 哪个库在同一图中提供堆叠条形图和折线图?
- python-3.x - Pyinstaller 显示“执行脚本失败”,但程序运行正常
- java - 在文件中存储大量对象的最佳方法是什么?
- node.js - 部署 MEAN 堆栈应用程序
- r - Ctrl+Enter 键盘快捷键在 RStudio 中间歇性停止工作
- mysql - 如何在 POST 正文的基础上创建动态插入语句
- react-native - 如何在 React Native Elements 库的 Overlay 组件的子组件上启用 onPress?
- spring - Activiti TimerBoundaryEvent 立即超时