python - 使用 python 从头开始构建语音到文本系统
问题描述
我需要语音到文本系统,以便我可以将音频文件转录为文本格式。在研究时,我发现由大公司创建的系统,例如 Amazon Transcribe、Google Speech to Text、IBM Watson 等。并且发现 python 内部的所有库都使用了这些 API。
如果我想自己创建这样的系统,步骤是什么?我找不到任何详细的文章。如何构建自己的语音识别系统。
我想创建自己的系统的主要原因是由于安全原因我无法将音频文件发送到外部 API。
主要目标是我录制了主要用英语交谈的人的录音,我想将该音频转录为文本。
如果您有任何其他想法而不是将音频文件发送到外部系统,请告诉我。
解决方案
一个起点是查看www.voxforge.org的产品;查看教程和论坛部分,以大致了解 Julius 和 CMU Sphinx 等开源项目的使用。这是一个相当广泛的主题,你会发现很多人都在你之前走过了这条路,所以你可以从他们的经验中学习。
推荐阅读
- sql - 数组中存在于其他两列之间的所有日期的计数
- arrays - 如何在 c 中读取文件、转换字母以及将字符串和整数打印为数组?
- python - 到达终点的最小跳跃
- cursive - Intellij Cursive 中的“存根”是什么?
- python-3.x - 如何从搜索栏复制 URL?
- excel - Microsoft Access 数据库引擎找不到对象工作表 - ACE OLEDB
- go-templates - 连接字符串中的变量
- sql - 无法在 Informix 中传递变量
- scala - 激活后每 X 秒调用一次函数 - Scala
- node.js - 将 crypto.js 值传递给脚本 nonce