python - 如何在 Python 中将文本与音频匹配?
问题描述
我有一个音频文件和一个与该音频文件中的语音相对应的文本。
有没有办法将文本与音频相匹配,以便我得到类似时间戳的东西,显示文本文件中的单词出现在音频中的位置。
解决方案
所以我找到了我正在寻找的东西。
显然,将给定文本与音频匹配并返回确切时间戳的技术称为强制对齐。
这是一个非常有用的链接,指向最佳强制对齐工具列表:https ://github.com/pettarin/forced-alignment-tools
就个人而言,我使用了Aeneas,因为它对我来说非常有效。
推荐阅读
- c++ - 错误 C2227:“->yr”的左侧必须指向类/结构/联合/通用类型
- typescript - 创建对象字面量时省略未定义的值
- python - Operating System Error 123 On Backup of SQL Database Via Subprocess
- javascript - 画布上下文有时只返回零
- macos - 如何在 macOS 上使用 vboximg-mount 时修复“hdiutil:附加失败 - 图像无法识别”错误
- javascript - 如何清除上一个间隔并运行一个新间隔
- ember.js - Ember 集成测试:具有每个帮助程序的组件未通过测试
- amazon-web-services - API 网关客户端
- javascript - 在 Html/Javascript 中第二次后用相同的路径替换图像不起作用
- sql-server - 检查 Windows 凭据是否对列表中的每个 SQL Server 具有系统管理员权限