首页 > 解决方案 > 使用预先转录的文本作为指导,在 Python 中执行 Speech-to-Text

问题描述

我正在开发一个 python 应用程序,该应用程序旨在根据演员在屏幕上所说的话来对齐视频剪辑。

例如,我有一个场景,演员正在阅读剧本中的对话。他们做了 10 次 3 分钟的场景。

我目前正在使用语音转文本转录他们所说的内容,但由于演员在重复阅读相同的对话,我想使用预先转录的对话(电影剧本)来帮助引导语音转文本引擎更准确。

例如:“你是在告诉我你是用德洛里安人建造了一台时间机器吗?”

语音到文本返回:“你是在说我在白天建造时间机器吗?”

我应该能够找出错误在哪里,并使用原始脚本估计正确的行,并根据电影脚本锁定所有内容。

我目前在 Python 中使用 CMUSphinx 来获取我的 STT 数据,并且效果很好。但是我在下一部分的逻辑上遇到了一些麻烦。

我会尽快发布一些代码!

编辑:发现我正在寻找的搜索词是“音频校准器”和“长音频校准器”。这些似乎是某些 STT 包中包含的工具。特别是 CMUSphinx 可能具有内置的能力。探索它。

标签: python-3.xspeech-recognitioncmusphinx

解决方案


推荐阅读