首页 > 解决方案 > 使用 python 从头开始​​构建语音到文本系统

问题描述

我需要语音到文本系统,以便我可以将音频文件转录为文本格式。在研究时,我发现由大公司创建的系统,例如 Amazon Transcribe、Google Speech to Text、IBM Watson 等。并且发现 python 内部的所有库都使用了这些 API。

如果我想自己创建这样的系统,步骤是什么?我找不到任何详细的文章。如何构建自己的语音识别系统。

我想创建自己的系统的主要原因是由于安全原因我无法将音频文件发送到外部 API。

主要目标是我录制了主要用英语交谈的人的录音,我想将该音频转录为文本。

如果您有任何其他想法而不是将音频文件发送到外部系统,请告诉我。

标签: pythonmachine-learningdeep-learningspeech-recognitionspeech-to-text

解决方案


一个起点是查看www.voxforge.org的产品;查看教程和论坛部分,以大致了解 Julius 和 CMU Sphinx 等开源项目的使用。这是一个相当广泛的主题,你会发现很多人都在你之前走过了这条路,所以你可以从他们的经验中学习。


推荐阅读