neural-network - 使用 Kaldi 的 x 向量方法进行说话人分割
问题描述
我将 kaldi 用于 asr,现在我想使用 Kaldi 的 x 向量方法进行说话人分割。他们在 https://github.com/kaldi-asr/kaldi/tree/master/egs/sre16/v2 提供了一些示例分割脚本。他们还在https://david-ryan提供了 LDC 语料库的基本预训练模型-snyder.github.io/2017/10/04/model_sre16_v2.html
此预训练模型在未归档时具有以下结构:
我无法访问 LDC 语料库,我想知道如何根据自己的数据训练模型,然后如何使用该模型进行实际分割?
解决方案
我想知道如何根据自己的数据训练模型
有使用公共数据的voxceleb demo,你可以自己运行。
您还可以将数据格式化为正确的数据结构(创建 data/utt2spk 和 data/wav.scp 文件)并使用您的数据运行。
https://github.com/kaldi-asr/kaldi/tree/master/egs/voxceleb/v2
然后如何使用该模型进行实际分割?
您从演示中的脚本开始,删除未使用的部分。这将为您提供基本的分段演示。您可以调用这个简化的演示,通过应用程序中的 system(2) 调用或以类似方式进行分段。
然后,如果您需要,您可以将脚本转换为相应的 C++ API 调用,并从 C++ 或任何脚本语言调用相同的过程。
推荐阅读
- php - 动态产品列表页面php
- php - Laravel 5.7.28 覆盖 getAuthPassword 仍然会引发未定义的索引:密码
- c# - 异步运行 C# WPF 事件
- batch-file - 如何在不转到每个窗口并执行 CTRL + C 的情况下终止许多生成的进程?
- assembly - 如何获得没有 NUL 字节的 objdump?
- javascript - 创建没有任何父级的树结构作为来自一级对象列表的输入
- google-apps-script - Open cell for editing in Google Sheets
- video - ffmpeg 从 m3u8 中选择特定语言的最高质量视频轨道和音频轨道
- javascript - 如何在 jQuery 中忽略对子元素的点击监听?
- python - 如何通过类名 python selenium 查找 id