python-3.x - 使用预先转录的文本作为指导,在 Python 中执行 Speech-to-Text
问题描述
我正在开发一个 python 应用程序,该应用程序旨在根据演员在屏幕上所说的话来对齐视频剪辑。
例如,我有一个场景,演员正在阅读剧本中的对话。他们做了 10 次 3 分钟的场景。
我目前正在使用语音转文本转录他们所说的内容,但由于演员在重复阅读相同的对话,我想使用预先转录的对话(电影剧本)来帮助引导语音转文本引擎更准确。
例如:“你是在告诉我你是用德洛里安人建造了一台时间机器吗?”
语音到文本返回:“你是在说我在白天建造时间机器吗?”
我应该能够找出错误在哪里,并使用原始脚本估计正确的行,并根据电影脚本锁定所有内容。
我目前在 Python 中使用 CMUSphinx 来获取我的 STT 数据,并且效果很好。但是我在下一部分的逻辑上遇到了一些麻烦。
我会尽快发布一些代码!
编辑:发现我正在寻找的搜索词是“音频校准器”和“长音频校准器”。这些似乎是某些 STT 包中包含的工具。特别是 CMUSphinx 可能具有内置的能力。探索它。
解决方案
推荐阅读
- javascript - 如何过滤掉反应表中日期范围之间的日期
- javascript - Javascript use value of variable after function
- python - How to reverse a sublist in python
- reactjs - Transcribing javascript to react [Cesium]
- r - How to plot multiple graphs into one using ggplot?
- sql - 访问:通过 VBA 创建 SQL 视图的问题 - 子查询中不允许联合
- python - 如何使用此模型在 keras 中拟合数组
- python - 如何通过考虑当前日期和以前的所有日期数据来获得每个日期的平均值
- c++ - 无法打开源文件“stdafx.h” ConsoleApplication | 标识符“_TCHAR”未定义
- google-apps-script - 使用脚本将 PDF 导出到驱动器